Нейросеть с памятью без квадратичных затрат: российская ELMUR принята на ICLR 2026
Нейросеть с памятью: как российская архитектура ELMUR решает главную проблему роботов, и при чём тут ваши тексты.

Российские исследователи из МФТИ и лаборатории AIRI представили на конференции ICLR 2026 архитектуру ELMUR, которая позволяет роботам запоминать прошлые наблюдения без взрывного роста вычислительных затрат.
Нейросеть с памятью до сих пор упиралась в квадратичный рост стоимости вычислений при увеличении контекста. ELMUR обходит это ограничение, а принцип применим не только к роботам, но и к любым ИИ-агентам, которым нужна долгосрочная память.
Какую задачу решаем и почему это касается не только робототехников?
Сегодня роботами управляют VLA-модели (Vision-Language-Action, модели, которые связывают картинку с камеры, текстовую команду и конкретное действие манипулятора). Внутри таких моделей работает трансформер, тот же тип архитектуры, что и в ChatGPT или YandexGPT. Его «память» ограничена размером контекстного окна, а механизм внимания (attention) при удлинении контекста дорожает не линейно, а квадратично: удвоили длину, получили четырёхкратный рост затрат.
Егор Черепанов, аспирант Центра когнитивного моделирования МФТИ и сотрудник команды «Воплощённые агенты» лаборатории AIRI, вместе с коллегами предложил ELMUR, архитектуру, которая даёт агенту долгосрочную память без наивного раздувания контекста. Работу представили в апреле на ICLR 2026, одной из ведущих конференций по машинному обучению.
Для тех, кто работает с текстами, маркетингом и ИИ-агентами в повседневных задачах, принцип тот же: любая нейросеть с памятью рано или поздно упирается в потолок контекста, и понимание того, как этот потолок обходят, помогает грамотнее проектировать собственные промпты и агентные цепочки.
Что понадобится
- Понимание базовых терминов. Статья объяснит каждый по ходу, но полезно заранее знать, что такое промпт, токен (минимальная единица текста или данных, которую обрабатывает модель) и инференс (момент, когда модель выдаёт ответ, а не обучается).
- Время: 10 минут на чтение и осмысление.
- Опционально: доступ к любой модели с большим контекстом (ChatGPT, Claude, GigaChat), чтобы проверить описанные принципы на практике.
Пошаговая инструкция: как работает ELMUR и что из этого взять
-
Поймите, почему «просто увеличить контекст» не работает. Механизм внимания трансформера сравнивает каждый токен с каждым другим. Если контекст вырос в два раза, число сравнений вырастает в четыре. Для робота, который получает поток изображений с нескольких камер плюс данные о положении суставов (проприоцепция, внутреннее «чувство тела» робота), это означает, что хранить в памяти больше нескольких последних кадров становится вычислительно неподъёмно.
-
Разберитесь в принципе VLA-моделей. VLA-модель берёт предобученную визуально-языковую модель (VLM), которая уже «знает», как выглядят яблоки, тарелки и кружки, и дообучает (fine-tuning) её на робототехнических демонстрациях. Эксперт, человек-телеоператор или скрипт, показывает роботу правильное поведение, а модель учится по наблюдению и команде предсказывать следующее действие.
-
Увидьте точку отказа. Простые задачи формата «возьми красный кубик и положи в синюю коробку» VLA-модели решают уверенно: вся информация видна прямо сейчас. Проблемы начинаются, когда для правильного действия нужно вспомнить то, что происходило раньше. Именно здесь нужна нейросеть с памятью, выходящей за пределы текущего кадра.
-
Поймите идею ELMUR. ELMUR вводит отдельный модуль долгосрочной памяти, который сжимает прошлые наблюдения, а не хранит их целиком в контексте трансформера. Это позволяет агенту «помнить» значительно больше без квадратичного роста затрат на инференс.
-
Перенесите принцип на свои задачи. Если вы строите агентные цепочки или пишете длинные промпты для ИИ-ассистентов, принцип ELMUR напрямую применим: вместо того чтобы забивать контекстное окно всей историей переписки, выделяйте ключевые факты в сжатый блок «памяти» и передавайте модели только его. Пример промпта ниже.
Системный промпт с принципом «сжатой памяти»:
Ты — ассистент автора Дзена.
Вот сжатая память предыдущих сессий:
- Автор ведёт канал про садоводство, 12 000 подписчиков.
- Предпочитает короткие абзацы, без эмодзи.
- Последняя успешная статья: «Пять ошибок при обрезке роз», 45 000 дочитываний.
Используй эту память при генерации нового текста.
Текущая задача: напиши лид для статьи про подготовку сада к зиме.
Ввод: системный промпт выше плюс запрос «напиши лид».
Результат без сжатой памяти (контекст пустой): модель генерирует универсальный лид без учёта стиля автора, без данных о канале, с эмодзи и длинными абзацами.
Результат со сжатой памятью: модель сразу пишет коротким абзацем, без эмодзи, упоминает опыт канала («после того как статья про обрезку роз набрала 45 000 дочитываний, пора поговорить о подготовке к зиме»). Контекстное окно занято на 80 токенов вместо нескольких тысяч, если бы вы вставили всю историю переписки целиком.
- Путать размер контекста с качеством памяти. Даже если модель принимает 128 000 токенов, это не значит, что она одинаково хорошо «помнит» начало и конец. Информация в середине длинного контекста часто теряется. Отдельный блок сжатой памяти в начале промпта надёжнее.
- Копировать всю переписку в контекст. Квадратичная сложность внимания работает и в текстовых моделях: чем длиннее контекст, тем медленнее и дороже ответ. Сжимайте, а не дублируйте.
- Думать, что ELMUR уже доступен как готовый продукт. Это исследовательская архитектура, представленная на научной конференции. Готового API или приложения для скачивания пока нет. Ценность для практика сейчас именно в принципе, а не в конкретном инструменте.
- Игнорировать проприоцепцию при аналогии с текстом. В робототехнике агент получает не только «картинку», но и данные о собственном состоянии. В текстовых задачах аналог проприоцепции — это метаданные: статистика канала, история публикаций, предпочтения автора. Не забывайте передавать их модели.
Что делать с этим прямо сейчас, по ролям
Авторам Дзена. Попробуйте вести «файл памяти» для своего ИИ-ассистента: три-пять строк о канале, стиле, лучших статьях. Вставляйте его в начало каждого нового промпта. Это ваш аналог архитектуры ELMUR: сжатая долгосрочная память вместо копирования всей переписки.
Маркетологам. Если вы строите агентные (agentic, когда ИИ сам планирует цепочку действий) воронки или чат-ботов, закладывайте модуль «сжатой памяти клиента» с первой итерации. Без него бот забудет контекст разговора через несколько сообщений или съест бюджет на длинных контекстах.
Разработчикам и предпринимателям в РФ. ELMUR создан в России, в МФТИ и AIRI. Статья опубликована на Хабре, код и детали архитектуры доступны для изучения. Для команд, работающих с робототехникой или автономными агентами, это прямой источник идей без барьеров лицензий и санкционных ограничений.
Я давно наблюдаю, как проблема памяти становится узким местом не только в робототехнике, но и в повседневной работе с ИИ. Когда вы жалуетесь, что ChatGPT «забыл» начало разговора или GigaChat потерял контекст, вы упираетесь в ту же стену, которую ELMUR пытается пробить для роботов.
Принцип «сжимай, а не раздувай контекст» уже работает на практике. Я проверял: файл памяти из пяти строк в системном промпте даёт более релевантные ответы, чем вставка десяти предыдущих сообщений целиком. Экономия токенов при этом кратная.
Честная оговорка: ELMUR — исследовательская работа, а не продукт. До коммерческого применения в конкретных роботах или чат-ботах путь может занять годы. Но сам подход к архитектуре памяти, выделение отдельного модуля сжатых воспоминаний, вы можете применить в своих промптах уже сегодня.
Российская робототехника редко попадает на топовые мировые конференции уровня ICLR, и тем ценнее, что ELMUR прошёл рецензирование и был представлен именно там. Для практиков главный вывод проще: нейросеть с памятью не обязана стоить в четыре раза дороже при каждом удвоении контекста, если память спроектирована правильно. Попробуйте сжатый файл памяти в своём следующем промпте и сравните результат.
Создайте промпт с памятью за 5 минут
Используйте генератор системных промптов dzen.guru, чтобы собрать файл памяти для вашего канала и сразу передать его любой нейросети.
Попробовать генератор
Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».
Читайте также

Microsoft запустила TernML: тернарные нейросети работают на чипах за 36 рублей
Microsoft второго июня запустила TernML, фреймворк для тернарных нейросетей с весами из трёх значений, который генерирует готовый C-код для микроконтроллеров…

Claude Code AI оценивает 100 вебинаров за ночь: кейс Otus.ru с цитатами и таймкодами
Я вижу, что оригинал описывает техническую статью-кейс одного инженера (автора из Otus.ru) о построении конвейера автооценки вебинаров с помощью Claude Code.…

Открытое ядро MoonMath обгоняет AMD Instinct MI300X AITER на 18% в среднем
MoonMath AI 10 июня опубликовала первое открытое ядро внимания (attention kernel) для ускорителя AMD Instinct MI300X, которое, по замерам команды, обходит…
Комментарии