Игорь Градов
Игорь Градов
6 мин
ai

Нейросеть с памятью без квадратичных затрат: российская ELMUR принята на ICLR 2026

Нейросеть с памятью: как российская архитектура ELMUR решает главную проблему роботов, и при чём тут ваши тексты.

Нейросеть с памятью без квадратичных затрат: российская ELMUR принята на ICLR 2026

Российские исследователи из МФТИ и лаборатории AIRI представили на конференции ICLR 2026 архитектуру ELMUR, которая позволяет роботам запоминать прошлые наблюдения без взрывного роста вычислительных затрат.

Почему это важно

Нейросеть с памятью до сих пор упиралась в квадратичный рост стоимости вычислений при увеличении контекста. ELMUR обходит это ограничение, а принцип применим не только к роботам, но и к любым ИИ-агентам, которым нужна долгосрочная память.

Какую задачу решаем и почему это касается не только робототехников?

Сегодня роботами управляют VLA-модели (Vision-Language-Action, модели, которые связывают картинку с камеры, текстовую команду и конкретное действие манипулятора). Внутри таких моделей работает трансформер, тот же тип архитектуры, что и в ChatGPT или YandexGPT. Его «память» ограничена размером контекстного окна, а механизм внимания (attention) при удлинении контекста дорожает не линейно, а квадратично: удвоили длину, получили четырёхкратный рост затрат.

Егор Черепанов, аспирант Центра когнитивного моделирования МФТИ и сотрудник команды «Воплощённые агенты» лаборатории AIRI, вместе с коллегами предложил ELMUR, архитектуру, которая даёт агенту долгосрочную память без наивного раздувания контекста. Работу представили в апреле на ICLR 2026, одной из ведущих конференций по машинному обучению.

Для тех, кто работает с текстами, маркетингом и ИИ-агентами в повседневных задачах, принцип тот же: любая нейросеть с памятью рано или поздно упирается в потолок контекста, и понимание того, как этот потолок обходят, помогает грамотнее проектировать собственные промпты и агентные цепочки.

Что понадобится

  • Понимание базовых терминов. Статья объяснит каждый по ходу, но полезно заранее знать, что такое промпт, токен (минимальная единица текста или данных, которую обрабатывает модель) и инференс (момент, когда модель выдаёт ответ, а не обучается).
  • Время: 10 минут на чтение и осмысление.
  • Опционально: доступ к любой модели с большим контекстом (ChatGPT, Claude, GigaChat), чтобы проверить описанные принципы на практике.

Пошаговая инструкция: как работает ELMUR и что из этого взять

  1. Поймите, почему «просто увеличить контекст» не работает. Механизм внимания трансформера сравнивает каждый токен с каждым другим. Если контекст вырос в два раза, число сравнений вырастает в четыре. Для робота, который получает поток изображений с нескольких камер плюс данные о положении суставов (проприоцепция, внутреннее «чувство тела» робота), это означает, что хранить в памяти больше нескольких последних кадров становится вычислительно неподъёмно.

  2. Разберитесь в принципе VLA-моделей. VLA-модель берёт предобученную визуально-языковую модель (VLM), которая уже «знает», как выглядят яблоки, тарелки и кружки, и дообучает (fine-tuning) её на робототехнических демонстрациях. Эксперт, человек-телеоператор или скрипт, показывает роботу правильное поведение, а модель учится по наблюдению и команде предсказывать следующее действие.

  3. Увидьте точку отказа. Простые задачи формата «возьми красный кубик и положи в синюю коробку» VLA-модели решают уверенно: вся информация видна прямо сейчас. Проблемы начинаются, когда для правильного действия нужно вспомнить то, что происходило раньше. Именно здесь нужна нейросеть с памятью, выходящей за пределы текущего кадра.

  4. Поймите идею ELMUR. ELMUR вводит отдельный модуль долгосрочной памяти, который сжимает прошлые наблюдения, а не хранит их целиком в контексте трансформера. Это позволяет агенту «помнить» значительно больше без квадратичного роста затрат на инференс.

  5. Перенесите принцип на свои задачи. Если вы строите агентные цепочки или пишете длинные промпты для ИИ-ассистентов, принцип ELMUR напрямую применим: вместо того чтобы забивать контекстное окно всей историей переписки, выделяйте ключевые факты в сжатый блок «памяти» и передавайте модели только его. Пример промпта ниже.

Системный промпт с принципом «сжатой памяти»:

Ты — ассистент автора Дзена.
Вот сжатая память предыдущих сессий:

- Автор ведёт канал про садоводство, 12 000 подписчиков.
- Предпочитает короткие абзацы, без эмодзи.
- Последняя успешная статья: «Пять ошибок при обрезке роз», 45 000 дочитываний.

Используй эту память при генерации нового текста.
Текущая задача: напиши лид для статьи про подготовку сада к зиме.
Что ввели и что получили

Ввод: системный промпт выше плюс запрос «напиши лид».

Результат без сжатой памяти (контекст пустой): модель генерирует универсальный лид без учёта стиля автора, без данных о канале, с эмодзи и длинными абзацами.

Результат со сжатой памятью: модель сразу пишет коротким абзацем, без эмодзи, упоминает опыт канала («после того как статья про обрезку роз набрала 45 000 дочитываний, пора поговорить о подготовке к зиме»). Контекстное окно занято на 80 токенов вместо нескольких тысяч, если бы вы вставили всю историю переписки целиком.

Частые ошибки
  • Путать размер контекста с качеством памяти. Даже если модель принимает 128 000 токенов, это не значит, что она одинаково хорошо «помнит» начало и конец. Информация в середине длинного контекста часто теряется. Отдельный блок сжатой памяти в начале промпта надёжнее.
  • Копировать всю переписку в контекст. Квадратичная сложность внимания работает и в текстовых моделях: чем длиннее контекст, тем медленнее и дороже ответ. Сжимайте, а не дублируйте.
  • Думать, что ELMUR уже доступен как готовый продукт. Это исследовательская архитектура, представленная на научной конференции. Готового API или приложения для скачивания пока нет. Ценность для практика сейчас именно в принципе, а не в конкретном инструменте.
  • Игнорировать проприоцепцию при аналогии с текстом. В робототехнике агент получает не только «картинку», но и данные о собственном состоянии. В текстовых задачах аналог проприоцепции — это метаданные: статистика канала, история публикаций, предпочтения автора. Не забывайте передавать их модели.

Что делать с этим прямо сейчас, по ролям

Авторам Дзена. Попробуйте вести «файл памяти» для своего ИИ-ассистента: три-пять строк о канале, стиле, лучших статьях. Вставляйте его в начало каждого нового промпта. Это ваш аналог архитектуры ELMUR: сжатая долгосрочная память вместо копирования всей переписки.

Маркетологам. Если вы строите агентные (agentic, когда ИИ сам планирует цепочку действий) воронки или чат-ботов, закладывайте модуль «сжатой памяти клиента» с первой итерации. Без него бот забудет контекст разговора через несколько сообщений или съест бюджет на длинных контекстах.

Разработчикам и предпринимателям в РФ. ELMUR создан в России, в МФТИ и AIRI. Статья опубликована на Хабре, код и детали архитектуры доступны для изучения. Для команд, работающих с робототехникой или автономными агентами, это прямой источник идей без барьеров лицензий и санкционных ограничений.

Мнение редакции dzen.guru

Я давно наблюдаю, как проблема памяти становится узким местом не только в робототехнике, но и в повседневной работе с ИИ. Когда вы жалуетесь, что ChatGPT «забыл» начало разговора или GigaChat потерял контекст, вы упираетесь в ту же стену, которую ELMUR пытается пробить для роботов.

Принцип «сжимай, а не раздувай контекст» уже работает на практике. Я проверял: файл памяти из пяти строк в системном промпте даёт более релевантные ответы, чем вставка десяти предыдущих сообщений целиком. Экономия токенов при этом кратная.

Честная оговорка: ELMUR — исследовательская работа, а не продукт. До коммерческого применения в конкретных роботах или чат-ботах путь может занять годы. Но сам подход к архитектуре памяти, выделение отдельного модуля сжатых воспоминаний, вы можете применить в своих промптах уже сегодня.

Российская робототехника редко попадает на топовые мировые конференции уровня ICLR, и тем ценнее, что ELMUR прошёл рецензирование и был представлен именно там. Для практиков главный вывод проще: нейросеть с памятью не обязана стоить в четыре раза дороже при каждом удвоении контекста, если память спроектирована правильно. Попробуйте сжатый файл памяти в своём следующем промпте и сравните результат.

Создайте промпт с памятью за 5 минут

Используйте генератор системных промптов dzen.guru, чтобы собрать файл памяти для вашего канала и сразу передать его любой нейросети.

Попробовать генератор
Поделиться:TelegramVK
Игорь Градов
Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Комментарии

Читайте также

Microsoft запустила TernML: тернарные нейросети работают на чипах за 36 рублей
ai

Microsoft запустила TernML: тернарные нейросети работают на чипах за 36 рублей

Microsoft второго июня запустила TernML, фреймворк для тернарных нейросетей с весами из трёх значений, который генерирует готовый C-код для микроконтроллеров…

5 мин
Claude Code AI оценивает 100 вебинаров за ночь: кейс Otus.ru с цитатами и таймкодами
ai

Claude Code AI оценивает 100 вебинаров за ночь: кейс Otus.ru с цитатами и таймкодами

Я вижу, что оригинал описывает техническую статью-кейс одного инженера (автора из Otus.ru) о построении конвейера автооценки вебинаров с помощью Claude Code.…

6 мин
Открытое ядро MoonMath обгоняет AMD Instinct MI300X AITER на 18% в среднем
ai

Открытое ядро MoonMath обгоняет AMD Instinct MI300X AITER на 18% в среднем

MoonMath AI 10 июня опубликовала первое открытое ядро внимания (attention kernel) для ускорителя AMD Instinct MI300X, которое, по замерам команды, обходит…

5 мин