Игорь Градов
Игорь Градов
7 мин
ai

Обучить модель ИИ без размеченных данных возможно: как страны строят суверенный ИИ за $450

Национальные модели ИИ перестали быть амбицией и стали страховкой: 12 июня 2026 года Anthropic по директиве Минторга США за считаные часы отключила свои модели для всех пользователей за пределами страны, и десятки стран одновременно потеряли доступ к ключевым сервисам.

Обучить модель ИИ без размеченных данных возможно: как страны строят суверенный ИИ за $450
Почему это важно

Блокировка Anthropic показала: зависимость от чужого ИИ-провайдера превращается в инфраструктурный риск уровня энергетики, и страны, у которых нет собственных моделей, оказались без рабочих инструментов за одну ночь.

До 12 июня 2026 года разговоры о суверенном ИИ звучали как геополитическая риторика. После того как Anthropic отключила модели «Fable 5» и «Mythos 5» для всех иностранных пользователей по директиве Министерства торговли США, суверенный ИИ из лозунга превратился в инженерную задачу. Источник этого обзора фиксирует три причины, по которым страны массово строят собственные модели, и конкретные проекты, которые уже работают.

Что Когда Кто выпустил Цена
Блокировка моделей «Fable 5» и «Mythos 5» для иностранных пользователей 12 июня 2026 года Anthropic (по директиве Минторга США) Бесплатного доступа больше нет
«Sarvam Vision» (распознавание документов на индийских языках) Февраль 2026 года Sarvam (Индия) Компания не раскрыла
European Sovereign Cloud в Бранденбурге 15 января 2026 года AWS Инвестиции 7,8 млрд евро
AI Act (полное вступление в силу) Август 2026 года Европейский союз Регуляторные расходы зависят от класса риска

Почему страны бросились строить свои модели?

  • Языковой барьер глобальных моделей. В Индии 22 официальных языка, и ни один из них крупные модели не прорабатывают так же глубоко, как английский. «Sarvam Vision» на бенчмарке olmOCR-Bench показал точность 84,3% на индийских документах, тогда как «Gemini 3 Pro» набрал 80,2%, а «GPT-5.2» всего 69,8%, по данным источника. Модель обучалась на правительственных архивах, смешанных шрифтах и рукописных штампах.

  • Регулятор перекрывает трубу данных. С августа 2026 года вступает в полную силу европейский AI Act, первый всеобъемлющий закон об ИИ. Он классифицирует все ИИ-системы по уровням риска: медицина, образование, наём попадают в категорию высокого риска с жёсткими требованиями к документации и тестированию. Параллельно действует американский Cloud Act: данные у американских провайдеров доступны властям США по запросу, даже если сервер стоит в Берлине.

  • Зависимость стала реальной угрозой. Французская внутренняя разведка DGSI заменила американскую Palantir на французскую ChapsVision. Расчёт простой: данные спецслужб юридически несовместимы с компанией, подпадающей под Cloud Act.

  • Порог входа резко снизился. Исследователи из Беркли, по данным источника, воспроизвели модель с рассуждениями (reasoning model) уровня GPT за 450 долларов и 19 часов через дистилляцию (дистилляция, это когда маленькую модель обучают воспроизводить ответы большой «учительской» модели, и она перенимает навыки без гигантских затрат). Раньше входной билет измерялся миллиардами, теперь миллионами долларов и сотнями GPU (графических процессоров, на которых обучают нейросети).

Возможно ли обучить модель, не имея размеченных данных?

Этот вопрос напрямую касается суверенных моделей, потому что у большинства стран просто нет армии разметчиков и терабайтов аккуратно подписанных датасетов.

Источник описывает конкретный выход: синтетические датасеты. На основе реальных документов генерируются обезличенные варианты, и уже на них дообучают (fine-tuning) модели. Это, по данным источника, на порядок снижает стоимость разметки и позволяет обходить ограничения на передачу данных за рубеж.

Для большинства реальных задач ультрамощные модели избыточны. Распознавание медицинских карт на хинди, классификация налоговых деклараций, голосовой интерфейс для коммунальных сервисов, со всем этим справляется специализированная модель на 3-7 миллиардов параметров, обученная на нужных данных. Факт, что Sarvam обогнал GPT-5.2 именно на локальных документах, подтверждает: правильные обучающие данные (training data) важнее чистой мощности модели.

Два пути суверенизации: Индия против Европы

Индия делает ставку на открытые модели с локальными данными, которые интегрируются в международные экосистемы. Данные остаются внутри страны, модель работает на местных языках и документах, но архитектура открыта для внешних разработчиков.

Европа идёт через инфраструктуру: AWS запустил European Sovereign Cloud в Бранденбурге, физически и логически отделённый от остальных регионов, под управлением исключительно граждан ЕС. Инвестиции составили 7,8 миллиарда евро, по данным источника. При этом юридическая защита от запросов по Cloud Act остаётся открытым вопросом, и это честно признаётся.

Пока совместимость между национальными стеками минимальна: регуляторные требования расходятся, форматы данных различаются, модели обучены на разных языках. Источник проводит аналогию со стандартами мобильной связи GSM и CDMA, которые не убили отрасль, потому что появился промежуточный слой API.

Как это выглядит в России?

Параметр Sarvam Vision (Индия) YandexGPT GigaChat
Ориентация на местные языки 22 языка Индии Русский язык Русский язык
Локальное хранение данных Да, внутри Индии Да, серверы в РФ Да, серверы в РФ
Открытая модель (open-source) Источник не уточняет Нет Нет
Доступность для разработчиков API API, Яндекс Клауд API, GigaChat Pro

Россия де-факто прошла через сценарий отключения раньше других: западные ИИ-сервисы ограничили доступ для российских пользователей ещё в 2022-2024 годах. YandexGPT и GigaChat от Сбера работают на серверах внутри страны и поддерживают русский язык. Релевантность индийского опыта для российских разработчиков прямая: Sarvam показал, что узкоспециализированная модель на правильных локальных данных побеждает глобальные аналоги на конкретных задачах.

Что делать с этим прямо сейчас, по ролям?

Автору Дзена. Если вы используете зарубежные ИИ-инструменты для генерации текстов, сделайте резервную копию рабочих промптов и протестируйте их в YandexGPT или GigaChat. Переключение может потребоваться без предупреждения.

Маркетологу. Пересмотрите, какие ИИ-сервисы встроены в вашу воронку. Если аналитика или персонализация идёт через API зарубежного провайдера, проработайте план «Б» на российских решениях.

Предпринимателю в РФ и СНГ. Для узких задач (распознавание документов, классификация обращений, голосовой бот) рассмотрите дообучение небольшой открытой модели на своих данных. Опыт Беркли с моделью за 450 долларов демонстрирует: порог входа снизился настолько, что это задача для команды из двух-трёх инженеров, а не для корпорации.

Как попробовать?

  1. Определите, какие именно зарубежные ИИ-сервисы критичны для вашей работы, и проверьте условия их использования на случай ограничений.
  2. Зарегистрируйтесь в YandexGPT (через Яндекс Клауд) или GigaChat (через developers.sber.ru) и перенесите туда один-два ключевых сценария.
  3. Если у вас есть специфические данные (отраслевые документы, FAQ клиентов), изучите возможность дообучения открытой модели. Подход с синтетическими датасетами позволяет обойтись без ручной разметки каждого документа.
Мнение редакции dzen.guru

По моим наблюдениям, большинство авторов и предпринимателей в РФ до сих пор относятся к суверенному ИИ как к политическому лозунгу. История с Anthropic 12 июня показала, что это инженерная реальность: доступ отключается за часы, а не за месяцы. Российский рынок в этом смысле получил «прививку» раньше других, и YandexGPT с GigaChat уже закрывают базовые потребности. Но для специализированных задач, медицинских карт, юридических документов, технической документации, нужны модели, дообученные на конкретных данных. Возможно ли обучить модель искусственного интеллекта, не имея размеченных данных? Опыт Sarvam и метод синтетических датасетов говорят: да, и это уже дешевле, чем платить за API глобального провайдера, который завтра может исчезнуть. Оговорка: качество российских моделей пока уступает лидерам на английском языке, но на русскоязычных задачах разрыв сокращается. Я бы рекомендовал сегодня перенести хотя бы один рабочий процесс на локальное решение и оценить результат на своих данных.

Частые вопросы

Могут ли снова отключить зарубежный ИИ-сервис для пользователей из России?

Да. Прецедент с Anthropic 12 июня 2026 года показал, что директива госоргана приводит к отключению за часы. Для российских пользователей аналогичные ограничения действуют с 2022 года по ряду сервисов. Полагаться на единственный зарубежный инструмент, значит принимать этот риск на себя.

Нужны ли миллиарды, чтобы создать национальную модель ИИ?

Нет. Исследователи из Беркли, по данным источника, воспроизвели модель с рассуждениями уровня GPT за 450 долларов. Для практических задач, распознавания документов, классификации обращений, достаточно модели на 3-7 миллиардов параметров, дообученной на нужных данных. Порог входа сместился от миллиардов к миллионам долларов.

Чем суверенная модель лучше глобальной?

Не «лучше» в целом, а точнее на локальных задачах. Sarvam Vision обогнал GPT-5.2 на индийских документах при меньшем размере модели. Преимущество суверенной модели: данные не уезжают за границу, сервис не зависит от политических решений другой страны, и модель обучена именно на тех форматах, с которыми работают местные пользователи.

Блокировка Anthropic сделала то, чего не смогли годы конференций: превратила суверенный ИИ из слайда в PowerPoint в строку бюджета. Для тех, кто работает в России, вывод практический: протестируйте один рабочий сценарий на локальной модели сегодня, пока это выбор, а не вынужденная мера.

Поделиться:TelegramVK
Игорь Градов
Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Комментарии

Читайте также

IDE JetBrains строят для ИИ-агентов: расход токенов на Kotlin упал на 13,48%
ai

IDE JetBrains строят для ИИ-агентов: расход токенов на Kotlin упал на 13,48%

JetBrains IDE второго поколения: среда, где ИИ-агент работает сам, без терминала и костылей. JetBrains перестраивает свои IDE (среды разработки, программы…

6 мин
Дефицит бензина породил 10 одинаковых сервисов за неделю: человек, общество и государство в эпоху ИИ
ai

Дефицит бензина породил 10 одинаковых сервисов за неделю: человек, общество и государство в эпоху ИИ

Я вижу, что оригинал описывает конкретный российский феномен: во время дефицита бензина в России за неделю независимо друг от друга появился десяток однотипных…

6 мин
Потребление электроэнергии ИИ в Google выросло на 37%: дата-центры обогнали Данию и Новую Зеландию
ai

Потребление электроэнергии ИИ в Google выросло на 37%: дата-центры обогнали Данию и Новую Зеландию

Почему это важно Google впервые признал, что его дата-центры потребляют электричества больше, чем целые страны вроде Новой Зеландии или Дании, и рост напрямую…

5 мин