Игорь Градов
Игорь Градов
5 мин
ai

Gemini 3.5 Flash получил управление компьютером: агент видит экран и сам нажимает кнопки

Google встроила в Gemini 3.5 Flash управление компьютером: модель видит экран, рассуждает и сама нажимает кнопки в браузере, на десктопе и в мобильных приложениях.

Gemini 3.5 Flash получил управление компьютером: агент видит экран и сам нажимает кнопки
Почему это важно

Раньше «компьютерное зрение» для ИИ-агентов (программ, которые сами выполняют задачи на компьютере) требовало отдельной модели. Теперь эта способность живёт прямо внутри основной модели Gemini 3.5 Flash, и разработчики могут строить автоматизацию через один API без дополнительных подключений.

Функцию анонсировала Google. До сих пор управление компьютером было доступно только через отдельную модель Gemini 2.5, заточенную именно под эту задачу. Теперь возможность стала встроенным инструментом Gemini 3.5 Flash, наравне с поиском и картами. Доступ открыт через Gemini API и Gemini Enterprise Agent Platform (корпоративную платформу Google для ИИ-агентов).

Что Когда Кто выпустил Цена
Управление компьютером встроено в Gemini 3.5 Flash Дату запуска Google не назвала, функция доступна сейчас Google Стоимость не раскрыта, доступ через Gemini API

Что умеет Gemini 3.5 Flash с управлением компьютером?

  • Видит экран. Модель воспринимает содержимое браузера, рабочего стола и мобильного интерфейса так, как это делает человек, глядя на монитор.
  • Рассуждает и действует. Gemini 3.5 Flash не просто распознаёт картинку: она понимает контекст и сама выполняет действия, кликает, вводит текст, переключает вкладки.
  • Работает на длинных сценариях. Google отдельно указывает на улучшение в задачах, растянутых во времени: непрерывное тестирование программ, обработка документов в профессиональных приложениях.
  • Анализирует сама себя. В демонстрации модель проверила документацию Gemini на проблемы с доступностью (accessibility) и составила категоризированный список функций приложения Gemini.

Как Google защищает от ошибок?

Когда ИИ-агент работает в «живой» среде, он может столкнуться с промпт-инъекцией (prompt injection), атакой, при которой вредоносный текст на экране заставляет модель выполнить чужую команду вместо вашей.

Google применяет адресное состязательное обучение (adversarial training): модель тренируют на примерах таких атак, чтобы она их распознавала. Дополнительно компания выпустила две необязательные корпоративные системы защиты:

  • Запрос подтверждения у пользователя перед любым чувствительным или необратимым действием.
  • Автоматическая остановка задачи, если обнаружена скрытая промпт-инъекция.

Google рекомендует сочетать эти функции с изолированной средой (песочницей), контролем человека на ключевых этапах и строгими правами доступа.

Как попробовать?

  1. Откройте демо-среду на платформе Browserbase, где можно протестировать управление компьютером без настройки.
  2. Перейдите в документацию Gemini API или Gemini Enterprise Agent Platform за референсной реализацией и примерами кода.

А есть ли что-то подобное в России?

Прямого аналога, где языковая модель встроенно управляет экраном компьютера, в российских сервисах пока нет. YandexGPT и GigaChat от Сбера умеют работать с текстом, генерировать код и отвечать на вопросы, но ни один из них не заявлял о функции «компьютерного зрения» с управлением интерфейсом.

Для российских разработчиков Gemini API доступен с ограничениями: потребуется зарубежный аккаунт Google Cloud и, вероятно, VPN. Если вы автоматизируете тестирование или документооборот, стоит проверить доступ прежде, чем закладывать Gemini 3.5 Flash в продуктовый пайплайн.

Что делать с этим прямо сейчас, по ролям

Автору Дзена. Пока функция заточена под разработчиков, а не авторов. Но следите за направлением: если агент научился сам проверять документы на ошибки, скоро появятся инструменты, которые будут вычитывать ваши тексты не по словам, а по тому, как они выглядят на экране читателя.

Маркетологу. Автоматическое тестирование лендингов, проверка вёрстки писем, аудит доступности сайта. Всё это задачи, которые агент на базе Gemini 3.5 Flash уже способен выполнять. Экономия на ручном QA может быть заметной, если у вас десятки страниц.

Предпринимателю в РФ и СНГ. Доступ ограничен, но технология показывает, куда движется рынок. Если ваша команда пишет внутренние скрипты для рутинных задач, заложите в план эксперимент с компьютерным зрением. Не обязательно Google: конкуренты (Anthropic с Claude Computer Use, OpenAI с Operator) развивают то же направление.

Мнение редакции dzen.guru

Google сделала логичный шаг: вместо отдельной модели для управления компьютером встроила функцию в основную. Для разработчика это удобнее, один вызов API вместо двух. Но я бы не торопился строить на этом продакшн-процессы прямо сейчас: любой агент, который сам нажимает кнопки, требует песочницы и жёсткого контроля. Google честно об этом пишет, и это скорее плюс, чем минус.

Для авторов и маркетологов практическая польза пока косвенная, но направление понятно: через год-два «покажи модели экран и попроси сделать» станет обычным рабочим приёмом. Советую подписаться на обновления Gemini API и попробовать демо на Browserbase, хотя бы чтобы своими глазами увидеть, как ИИ-агент ориентируется на экране.

Частые вопросы

Gemini 3.5 Flash управляет моим компьютером напрямую?

Нет. Модель работает через API и видит то, что ей передаёт среда исполнения (браузер, эмулятор, песочница). Она не получает доступ к вашему рабочему столу, если вы сами это не настроите. Google рекомендует запускать агентов в изолированной среде.

Можно ли использовать из России?

Gemini API формально доступен не во всех регионах. Для работы из РФ, скорее всего, понадобится аккаунт Google Cloud, зарегистрированный в поддерживаемой стране. Проверьте актуальный список регионов в документации Google перед тем, как начинать разработку.

Чем это отличается от Claude Computer Use у Anthropic?

Обе технологии решают похожую задачу: ИИ-агент видит экран и выполняет действия. Ключевое отличие Gemini 3.5 Flash в том, что управление компьютером встроено в основную модель, а не вынесено в отдельный продукт. Какой подход точнее и надёжнее, покажут независимые тесты, на момент публикации сравнительных бенчмарков нет.

Поделиться:TelegramVK
Игорь Градов
Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Комментарии

Читайте также

Что такое ИИ-агент: собираем runtime с контролем токенов и бюджета с нуля
ai

Что такое ИИ-агент: собираем runtime с контролем токенов и бюджета с нуля

Компания или человек, написавший оригинальный код OpenHarness, не указаны в источнике как конкретный бренд или лицо. Источник представляет собой учебный…

7 мин
Baidu открыла OCR-нейросеть на 3 млрд параметров: 40 страниц за проход без роста памяти
ai

Baidu открыла OCR-нейросеть на 3 млрд параметров: 40 страниц за проход без роста памяти

Baidu, китайская технологическая компания, 10 июня 2025 года выложила в открытый доступ Unlimited OCR, нейросеть для распознавания текста, которая обрабатывает…

5 мин
Accenture раздула бюджет на ИИ конвертацией PDF: как не повторить её ошибку
ai

Accenture раздула бюджет на ИИ конвертацией PDF: как не повторить её ошибку

Компания Accenture сначала грозила сотрудникам потерей повышений за неиспользование ИИ, а теперь вынуждена ограничивать доступ к нейросетям, потому что бюджет…

5 мин