Игорь Градов

5 июля 2026 г. в 12:45 МСК6 мин

Экс-глава Qwen объяснил, что такое ИИ-агент и почему он вытесняет «думающие» модели

Компания Alibaba развивала семейство моделей Qwen как универсального помощника, но бывший технический руководитель проекта Junyang Lin, ушедший в независимые исследователи 3 марта 2026 года, в своём докладе и развёрнутом посте объяснил, почему будущее не за гибридными моделями, а за ИИ-агентами, которые действуют в реальной среде.

Почему это важно

Линь фиксирует смену эпох: от «рассуждающего ИИ», который думает внутри себя, к «агентному ИИ», который планирует, действует, получает обратную связь и корректирует план. Для практиков это значит, что инвестиции крупнейших китайских лабораторий перетекают из обучения моделей в обучение агентов.

Junyang Lin руководил проектом Qwen в Alibaba и покинул его, чтобы работать независимо. Его доклад называется «Qwen: Towards a Generalist Model / Agent» и устроен как экскурсия по всему семейству: QwQ-32B, Qwen2.5-Max, Qwen3, Qwen2.5-VL, Qwen2.5-Omni. Каждую модель он сравнивает с конкурентами: DeepSeek-R1, Grok 3 Beta, Gemini 2.5 Pro и серией o от OpenAI. Финальный слайд содержит одну строку: «Training models → training agents» (от обучения моделей к обучению агентов). Эту строку Линь позже развернул в большой пост, который и стал главным источником выводов.

Показатель	Значение	Источник
Дата ухода Линя из Qwen	3 марта 2026	доклад Junyang Lin
Размеры моделей Qwen3	от 0,6 до 235 млрд параметров	доклад Junyang Lin
Языки и диалекты Qwen3	119 (было 29)	доклад Junyang Lin
Контекстное окно (крупные модели)	128K токенов	доклад Junyang Lin
MoE-модели: активных экспертов на токен	8 из 128	доклад Junyang Lin
Лицензия	Apache 2.0	доклад Junyang Lin

Что измеряли и показывали?

Доклад Линя не классическое исследование с единым экспериментом. Это обзор семейства Qwen с бенчмарками (контрольными замерами на стандартных задачах) и архитектурная карта: какие размеры, какие форматы квантизации (сжатия модели для запуска на слабом железе), какие режимы работы.

Главная техническая тема: гибридное мышление. Qwen3 умеет работать в двух режимах. Первый: «думающий» (thinking mode), когда модель пошагово рассуждает, тратит больше токенов (единиц текста, которые модель обрабатывает) и времени. Второй: «мгновенный» (non-thinking mode), когда модель отвечает коротко и быстро. Пользователь или разработчик переключает режим одним флагом в коде или командой /think и /no_think прямо в сообщении.

Линь также объясняет, зачем Qwen3 позволяет ограничивать «бюджет на раздумья»: вызывающая сторона задаёт потолок, сколько токенов модель потратит на рассуждение.

Что обнаружили?

Гибрид собрать сложнее, чем кажется. Модель, заточенная на краткость и скорость (instruct-режим), и модель, заточенная на развёрнутое рассуждение (thinking-режим), тянут обучение в противоположные стороны. При неаккуратном слиянии деградируют оба режима: рассуждения раздуваются, а прямые ответы теряют точность.
Qwen3 пробовала слияние через четыре стадии пост-обучения. В процесс входил «холодный старт» на длинных цепочках рассуждений (long-CoT cold start), RL-этап (обучение с подкреплением) и шаг «fusion» (объединение режимов). Линия 2507, вышедшая позже в 2025 году, отказалась от слияния и выпустила отдельные варианты Instruct и Thinking. Линь описывает это как проблему данных, а не архитектуры.
Anthropic пошла другим путём. Claude 3.7 Sonnet вышел гибридной моделью с настраиваемым бюджетом рассуждений. Claude 4 позволил перемежать рассуждения с вызовами инструментов, нацелившись на код и долгие задачи. Линь считает этот путь «полезной коррекцией» и подчёркивает: длинная цепочка рассуждений сама по себе не делает модель умнее. Формат мышления должен подстраиваться под задачу, а не под бенчмарк.
Главный тезис: эпоха «рассуждающего ИИ» сменяется эпохой «агентного ИИ». Первую эпоху определили o1 от OpenAI и DeepSeek-R1: они показали, что обучение с подкреплением нуждается в детерминированных, проверяемых наградах, поэтому математика, код и логика стали центральными задачами. Следующая эпоха, по Линю, это агентное мышление: ИИ формулирует план, решает, когда действовать, вызывает инструменты, читает обратную связь из среды и пересматривает план.
Что должен уметь ИИ-агент, чего «чистому рассуждателю» не нужно:
решать, когда прекратить думать и начать действовать
выбирать инструмент и порядок вызовов
работать с шумными и неполными данными из среды
пересматривать план после ошибок
сохранять связность через множество шагов и вызовов

Для тех, кто впервые встречает термин: что такое ИИ-агент? Это программа на основе языковой модели, которая не просто отвечает на вопрос, а сама ставит подзадачи, вызывает внешние сервисы (поиск, код, базу данных), проверяет результат и при необходимости переделывает работу. Обычный чат-бот ждёт ваш следующий промпт. ИИ-агент действует между вашими промптами.

Три примера, которые Линь разбирает

Кодинг. Рассуждающая модель выдаёт один патч по трассировке ошибки. Агентная система запускает тесты, читает реальную ошибку, исправляет, перезапускает, пока набор тестов не пройдёт.
Глубокое исследование. Рассуждающая модель пишет длинный ответ по памяти. Агентная система разбивает вопрос на подзапросы, обращается к поиску, отбрасывает слабые источники, возвращает ответ с проверяемыми ссылками. Демо Deep Research от Qwen работает именно так.
Мульти-агентная оркестрация. Линь ожидает, что «инженерия оркестровки» станет важнее промпт-инжиниринга. Оркестратор планирует и распределяет работу. Узкоспециализированные субагенты выполняют отдельные задачи и помогают контролировать «загрязнение контекста» (когда в окно модели попадает слишком много нерелевантной информации).

Как это читать

Доклад и пост Линя не содержат нового эксперимента или бенчмарка, которого раньше не было. Это авторская интерпретация человека, который строил Qwen, но уже покинул проект. Его взгляд отражает опыт внутри Alibaba, но не обязательно текущую стратегию компании. Бенчмарки, которые он приводит, сравнивают модели разных поколений и разных размеров, прямое ранжирование на их основе некорректно.

Что делать с этим прямо сейчас?

Авторам Дзена. Если вы используете ИИ для генерации черновиков или ресёрча, следите за появлением агентных режимов в доступных вам инструментах. Уже сейчас в Qwen3 можно переключать «думающий» и «быстрый» режимы одной командой. Для коротких задач (заголовок, подпись к картинке) отключайте рассуждения: ответ будет быстрее и дешевле по токенам. Для сложных (план статьи, фактчекинг) включайте.

Маркетологам. Линь прямо говорит, что будущее за агентами, которые сами ходят в поиск, проверяют источники, переделывают работу. Это значит, что инструменты глубокого исследования рынка на базе ИИ будут улучшаться не за счёт «более умной модели», а за счёт лучшей оркестрации. Выбирайте сервисы, которые показывают цепочку действий агента, а не просто «финальный ответ».

Предпринимателям в РФ и СНГ. Модели Qwen3 распространяются под лицензией Apache 2.0 (открытая лицензия, позволяющая коммерческое использование). Их можно скачать и запустить локально, что снимает вопрос доступности из России. Из доступных в РФ аналогов закрытых моделей: YandexGPT и GigaChat, но пока ни одна из них не заявляла агентный режим с переключаемым бюджетом рассуждений. Стратегия «от моделей к агентам» объясняет, куда крупнейшие китайские лаборатории направляют ресурсы, и если вы строите продукт на открытых моделях, закладывайте архитектуру под агентные сценарии уже сейчас.

Мнение редакции dzen.guru

Линь не просто описывает техническую эволюцию. Он фиксирует разочарование: гибридные модели, совмещающие «быстрый» и «думающий» режимы, оказались инженерно тяжёлыми. Слияние двух режимов портило оба. Линия 2507 отказалась от слияния и выпустила раздельные варианты. Это честный инженерный вывод, а не маркетинговый разворот.

Для нас, практиков, главное здесь: что такое ИИ-агент в понимании человека, который строил одну из крупнейших открытых моделей мира. Это не «чат-бот с плагинами», а система замкнутого цикла, которая сама решает, когда думать, когда действовать, когда остановиться. Пока таких систем в готовом виде мало, но направление задано, и ресурсы уже перетекают туда. Я бы рекомендовал уже сейчас тестировать агентные сценарии на открытых моделях Qwen3: лицензия позволяет, размеры есть от компактных до больших, а переключатель режимов мышления работает прямо из кода.

По данным доклада и поста Junyang Lin

Поделиться:Telegram VK

Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Промпты для нейросети от Anthropic: 4 паттерна, которые работают с любой моделью

Компания Anthropic открыла библиотеку промптов для Claude Code, и автор dzen.guru проверил пять паттернов из неё на живой задаче: парсинг собственных статей с…

5 июля в 14:30 МСК6 мин

Yttri 0.86 объединил ИИ-агента в одном окне и открыл публичный SDK для плагинов

Yttri 0.86 собрал ИИ-агента в одном окне, добавил плагин для Obsidian и локальный движок MLX для Mac, и всё это произошло в бета-версии, которая впервые…

5 июля в 14:15 МСК6 мин

Кибербезопасность и искусственный интеллект: урок цифры из трёх реальных сбоев с Claude

Материал представляет собой личный блог-пост (на русском языке) с тремя историями о сбоях при делегировании задач ИИ-ассистенту Claude. Автор описывает…

5 июля в 13:30 МСК6 мин