Игорь Градов
Игорь Градов
5 мин
ai

Яндекс показал, как нейросеть трансформер каждые 100 мс строит путь беспилотника

Компания Яндекс опубликовала подробный разбор того, как трансформеры (нейросети, которые лежат в основе ChatGPT и других генеративных моделей) применяются не для текстов или картинок, а для управления реальными беспилотными автомобилями на улицах города.

Яндекс показал, как нейросеть трансформер каждые 100 мс строит путь беспилотника
Почему это важно

Нейросеть трансформер уже привычна в генерации текста, но в автономном вождении она работает принципиально иначе: не выдаёт «один лучший ответ», а каждые 100 миллисекунд пересчитывает безопасную траекторию среди живых людей и машин.

Максим, руководитель службы поведения и предсказания движения в подразделении «Автономный транспорт» Яндекса, описал полный путь от первых экспериментов с машинным обучением до регулярных испытаний на реальных машинах. Ниже разберём ключевые принципы этой системы так, чтобы даже без инженерного бэкграунда стало понятно, почему одни подходы к автопилоту надёжнее других.

Что понадобится для понимания

  • Базовое представление о нейросетях: достаточно знать, что нейросеть трансформер обрабатывает входные данные и выдаёт результат, «взвешивая» важность разных фрагментов информации
  • 15 минут на чтение
  • Никаких специальных программ или доступов: статья объясняет архитектуру, а не требует её воспроизвести

Как устроена система: пошаговый разбор

  1. Собрать данные о мире вокруг. Камеры, лидары (лазерные сканеры, строящие 3D-карту окружения) и радары автомобиля передают «сырой» поток. К нему добавляется HD-карта с разметкой, границами полос, ограничениями скорости и маршрут с точкой назначения.

  2. Разделить восприятие и планирование. Яндекс использует классический подход: сначала модуль perception (восприятие) превращает сырые сенсорные данные в структурированное описание сцены, а затем отдельный планировщик Motion Planner строит траекторию. Так же работают Waymo, Zoox и Aurora. Альтернатива, end-to-end подход (когда модель сразу из сырых данных выдаёт команды руля и педалей, как у Tesla), по оценке команды Яндекса, пока слишком хрупка для реального города: качество таких моделей сложно измерить до выезда на дорогу, потому что достаточно реалистичные симуляторы сенсорных данных ещё остаются предметом исследований.

  3. Подать на вход модели «сцену». Сцена состоит из элементов разной природы:

  4. Агенты (всё, что движется: машины, пешеходы, велокурьеры) представлены как временные последовательности состояний. Каждое состояние включает позицию, скорость, ускорение, ориентацию, габариты. Модель видит историю на несколько секунд назад.
  5. Эго (сам беспилотник) подаётся так же, как обычный агент, но с более точными измерениями.
  6. Карта подаётся как пространственный вход, не зависящий от времени: границы дорог, разметка, топология, приоритеты.

  7. Получить на выходе траекторию. Нейросеть трансформер предсказывает будущие положения, скорость и ориентацию беспилотника на ближайшие несколько секунд. Это и есть краткосрочный план движения.

  8. Добавить вспомогательную задачу. Во время обучения модель предсказывает будущие состояния не только беспилотника, но и всех агентов вокруг. Эти дополнительные предсказания не используются напрямую при вождении, но дают дополнительный обучающий сигнал и заметно улучшают качество основной траектории.

  9. Проверить в три этапа. Любая модель проходит цепочку: сначала ML-метрики (математические замеры точности), затем симуляция и только потом тесты на реальном автомобиле под контролем водителей-испытателей.

Как это выглядит на практике

На входе: история движения 30 агентов за последние 3 секунды (каждые 100 мс новый «кадр»), HD-карта перекрёстка с четырьмя полосами и маршрут «прямо через 200 метров поворот направо». На выходе: траектория беспилотника на ближайшие несколько секунд с указанием, где именно он окажется, с какой скоростью и под каким углом. Система пересчитывает этот план примерно 10 раз в секунду, каждый раз заново оценивая изменившуюся обстановку.

Почему разделение на восприятие и планирование надёжнее?

Команда Яндекса выбрала классический подход с разделением perception и planning по конкретной причине: каждый модуль можно тестировать отдельно на большом количестве сценариев. Если восприятие ошиблось, ошибку видно в логах восприятия. Если планировщик построил плохую траекторию при верном восприятии, это отдельная задача.

В end-to-end подходе, где модель получает сырые данные с камер и сразу выдаёт команду рулю, диагностировать причину ошибки значительно сложнее. Как отмечает Максим, качество таких моделей трудно оценить до реального выезда, потому что для этого нужна реалистичная симуляция самих сенсорных данных, а такие симуляторы пока не вышли из стадии исследований.

Здесь заложен принцип, знакомый любому инженеру: чем прозрачнее система, тем проще найти и устранить сбой. Для автономного транспорта, где цена ошибки измеряется не в плохом тексте, а в безопасности людей, это не академическое предпочтение, а требование.

Что делать с этим прямо сейчас?

Авторам Дзена и копирайтерам. Когда пишете про беспилотники или ИИ в транспорте, разделяйте два подхода: классический (восприятие отдельно, планирование отдельно) и end-to-end. Это не одно и то же, и читатели, следящие за темой, заметят путаницу. Материал Яндекса даёт конкретную терминологию и структуру для грамотного объяснения.

Маркетологам. Кейс Яндекса показывает, как объяснять сложную техническую архитектуру без упрощения до бессмысленности. Формат «вход, обработка, выход, проверка» работает для любого продуктового лонгрида.

Предпринимателям РФ. Беспилотные такси Яндекса уже ездят по Москве в тестовом режиме. Это российская разработка, доступная для наблюдения и потенциального партнёрства, в отличие от Waymo или Tesla, которые работают только на американском рынке.

Частые ошибки

Не ставьте знак равенства между «трансформер хорошо пишет текст» и «трансформер хорошо водит машину». В генерации текста допустимы галлюцинации (когда модель уверенно выдумывает факты), в автономном вождении любая галлюцинация может стать аварией. Поэтому модель проходит трёхступенчатую проверку, а не просто «выкатывается» после обучения. Ещё одна частая ошибка: считать, что end-to-end подход (как у Tesla) «проще и современнее». По данным команды Яндекса, он перспективен, но пока не обеспечивает той надёжности, которую даёт разделённая архитектура.

Мнение редакции dzen.guru

По моим наблюдениям, большинство популярных материалов про автопилоты сводятся к двум крайностям: либо «машины скоро будут ездить сами», либо «это всё опасно и не работает». Разбор Яндекса ценен тем, что показывает реальную инженерную кухню без маркетингового глянца. Нейросеть трансформер здесь не волшебная палочка, а инструмент с конкретными ограничениями. Честная оговорка: статья Яндекса описывает только первую часть пайплайна (что подаётся на вход и что на выходе), а обучающие данные, метрики качества и результаты симуляций в опубликованном фрагменте не раскрыты. Полную картину по одному материалу составить нельзя.

Автономное вождение на трансформерах в Яндексе уже не эксперимент, а инженерная практика с тестами на реальных дорогах, и именно разделение восприятия и планирования делает эту практику достаточно предсказуемой, чтобы выпустить машину в город.

Поделиться:TelegramVK
Игорь Градов
Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Комментарии

Читайте также

6 ошибок архитектуры AI агентов, которые ломают продакшен на длинных цепочках
ai

6 ошибок архитектуры AI агентов, которые ломают продакшен на длинных цепочках

повторные вызовы с одними и теми же аргументами учащаются. На длинных цепочках качество решений деградирует заметно. Причина. Контекстное окно модели — это…

4 мин
ИИ-агенты: это рынок на триллион, и OKX строит для них «биржу фриланса»
ai

ИИ-агенты: это рынок на триллион, и OKX строит для них «биржу фриланса»

Почему это важно Криптобиржа с аудиторией более 150 млн пользователей открыла маркетплейс, где ИИ-агенты сами находят друг друга, платят за услуги…

6 мин
Интерфейс мозг‑компьютер: это 61% точности без имплантов в новом декодере Meta
ai

Интерфейс мозг‑компьютер: это 61% точности без имплантов в новом декодере Meta

Meta второго июня представила Brain2Qwerty v2, систему, которая читает текст прямо из активности мозга по магнитным сигналам, без имплантов, без хирургии и без…

6 мин