Игорь Градов
Игорь Градов
6 мин
ai

OCR-нейросеть Mistral OCR 4 отдаёт координаты каждого блока: $4 за 1 000 страниц

Mistral AI выпустила OCR 4, модель для распознавания документов, которая возвращает не просто текст, а структуру страницы с координатами каждого блока и оценкой уверенности по каждому слову, и сразу предложила развёртывание в одном контейнере.

OCR-нейросеть Mistral OCR 4 отдаёт координаты каждого блока: $4 за 1 000 страниц
Почему это важно

OCR-нейросеть впервые отдаёт не «плоский» текст, а размеченную карту документа: заголовок, таблица, подпись, формула, и к каждому элементу координаты и процент уверенности. Для корпоративного поиска и автоматизации это разница между «прочитать PDF» и «понять, что где лежит на странице».

До сих пор большинство OCR-моделей, включая предыдущую Mistral OCR 3, конвертировали страницу в чистый текст и таблицы. Системы, которым нужно цитировать фрагмент, вырезать персональные данные или проверить результат вручную, получали текст без привязки к месту на странице. OCR 4, по данным Mistral AI, закрывает этот пробел: каждый блок получает рамку (bounding box, прямоугольник с координатами элемента на странице), тип (заголовок, таблица, уравнение, подпись) и числовой показатель уверенности.

Что Когда Кто выпустил Цена
Mistral OCR 4, модель распознавания и структурирования документов Июнь 2025 Mistral AI 4 доллара за 1 000 страниц, 2 доллара при пакетной обработке (Batch API)

Что умеет OCR 4?

  • Разметка блоков с координатами. Каждый элемент страницы (заголовок, таблица, формула, подпись) получает рамку и тип. Это позволяет подсвечивать источник цитаты прямо в документе, а не искать вручную.
  • Оценка уверенности по словам. Модель выставляет числовой балл для каждого слова и страницы. Фрагменты с низкой уверенностью можно автоматически отправлять на проверку человеку, а остальные пропускать без ручного контроля.
  • 170 языков из 10 языковых групп. Mistral AI отдельно отмечает улучшения для редких и малоресурсных языков. Русский входит в число поддерживаемых.
  • Один контейнер для развёртывания на своих серверах. Корпоративные клиенты могут запустить модель внутри своей инфраструктуры, без передачи данных наружу.
  • Один API-эндпоинт для двух режимов. Базовое извлечение текста и продвинутый режим Document AI (когда результат укладывается в заданную схему с полями) работают через один и тот же вызов.

Как выглядят результаты тестов?

Mistral AI привлекла независимых оценщиков, которые сравнили OCR 4 с другими OCR-нейросетями, универсальными языковыми моделями и корпоративными сервисами обработки документов. По данным компании, оценщики предпочли OCR 4 в среднем в 72% случаев. Оценка проводилась на более чем 600 документах на более чем 12 языках.

На автоматических бенчмарках модель набрала 85,20 на публичном OlmOCRBench и 93,07 на OmniDocBench.

Два клиентских кейса добавляют контекст. Компания Rogo сообщила о сопоставимой точности при стоимости примерно в 8 раз ниже и задержке в 17 раз меньше по сравнению с агентными (agentic, то есть работающими через цепочку автономных шагов) парсерами. Компания Anaqua зафиксировала скорость обработки примерно в 4 раза выше, чем у предыдущего поставщика.

Где OCR 4 применяется?

Mistral AI описывает пять основных сценариев:

  • Разбор и извлечение данных из документов. Многоязычный контракт превращается в структурированный Markdown для индексации.
  • RAG-пайплайны (RAG, Retrieval-Augmented Generation, метод, когда ИИ сначала ищет релевантные фрагменты в базе, а потом формирует ответ). Размеченные блоки подаются в поисковую систему, и ответ приходит с точной ссылкой на источник.
  • Агентные сценарии. ИИ-агент для обработки счетов получает типизированные поля и координаты и заполняет формы автоматически.
  • Корпоративный поиск. OCR 4 работает как компонент загрузки данных для поиска и извлечения сущностей по архиву.

Компания прямо оговаривает ограничения: OCR 4 распознаёт документы, а не принимает решения. Модель не предназначена для медицинской диагностики, юридических заключений, финансовых решений с высокими ставками, систем критической безопасности и обработки аудио или видео.

Как попробовать OCR-нейросеть онлайн?

  1. Зарегистрируйтесь на платформе Mistral AI и получите API-ключ.
  2. Установите Python-библиотеку mistralai и вызовите метод client.ocr.process с параметром model="mistral-ocr-latest". Для получения блоков с координатами добавьте include_blocks=True.
  3. Отправьте ссылку на PDF, DOC, PPT или документ в формате OpenDocument. Ответ придёт в JSON с массивом страниц: текст в Markdown, изображения, таблицы, гиперссылки, размеры и оценки уверенности.
  4. Для пакетной обработки большого архива используйте Batch API, цена снижается с 4 до 2 долларов за 1 000 страниц.

Сравнение с российскими аналогами

В России задачи OCR решают несколько инструментов, но прямого аналога OCR 4 с блочной разметкой и координатами пока нет.

Mistral OCR 4 YandexGPT / GigaChat
Задача Распознавание и структурирование документов с координатами блоков Генерация текста, ответы на вопросы; OCR не является основной функцией
Языки 170, включая редкие Русский и английский как основные
Развёртывание на своих серверах Да, один контейнер Облачный API
Стоимость OCR 2 от 4 долларов за 1 000 страниц Тарифы за токены (токен, единица текста, которую модель обрабатывает за раз), OCR как отдельная услуга не выделена

Для автора или предпринимателя, которому нужно оцифровать архив документов на русском, OCR 4 остаётся доступным через API Mistral AI из России. Развёртывание в собственном контейнере снимает вопрос передачи данных за рубеж.

Мнение редакции dzen.guru

Я тестировал предыдущую версию Mistral OCR на технических отчётах и договорах на русском. Текст извлекался чисто, но без привязки к месту на странице приходилось вручную искать, откуда взят фрагмент. Координаты блоков и оценка уверенности в OCR 4, по описанию, решают именно эту проблему.

Цена в 2 доллара за 1 000 страниц при пакетной обработке делает модель доступной даже для небольшой редакции или ИП. Для сравнения: ручная оцифровка одной страницы в России обходится от 5 до 30 рублей, то есть 1 000 страниц стоят от 5 000 рублей. Здесь, около 160 рублей за тысячу при пакетном тарифе.

Что сделать сегодня. Если у вас есть архив PDF-документов на русском, попробуйте отправить 5 от 10 страниц через API и проверьте качество на своих текстах. Уверенность по словам покажет, где модель сомневается, и вы сразу поймёте, подходит ли OCR-нейросеть для вашего типа документов.

Оговорка: компания не раскрывает детали обучающих данных, и результаты на конкретных русскоязычных шрифтах, рукописном тексте или сканах низкого качества могут отличаться от бенчмарков.

Что делать с этим прямо сейчас, по ролям

Автору Дзена. Если публикуете обзоры книг, исследований или юридических документов, OCR-нейросеть онлайн позволяет быстро вытащить цитаты с точной привязкой к странице и абзацу. Ссылка на конкретный блок документа повышает доверие читателя.

Маркетологу. Автоматическая обработка коммерческих предложений, прайс-листов и отчётов конкурентов экономит часы ручной работы. Оценка уверенности помогает понять, какие фрагменты нужно перепроверить.

Предпринимателю в РФ. Развёртывание в одном контейнере означает, что данные клиентов не уходят за периметр. Для компаний, работающих с персональными данными или коммерческой тайной, это снимает регуляторные риски.

Частые вопросы

Работает ли OCR 4 с русским языком?

Да. Mistral AI заявляет поддержку 170 языков из 10 языковых групп. Русский входит в число поддерживаемых. Компания отдельно отмечает улучшения для редких и малоресурсных языков, но конкретные метрики по русскому не приведены.

Можно ли использовать OCR 4 без отправки документов в облако?

Да. Корпоративным клиентам доступно развёртывание модели в одном контейнере на собственных серверах. Это закрывает требования по локализации данных и комплаенсу.

Чем OCR 4 отличается от обычного распознавания текста?

Обычный OCR возвращает текст. OCR 4 возвращает структуру: каждый блок на странице получает тип (заголовок, таблица, формула), координаты и числовой балл уверенности. Это позволяет не просто читать документ, а автоматически обрабатывать его элементы по отдельности.

Для тех, кто работает с большими архивами документов, OCR 4 стоит проверить на реальных файлах именно сейчас, пока Batch API доступен по сниженной цене и пока конкуренты не подтянули блочную разметку до того же уровня.

Поделиться:TelegramVK
Игорь Градов
Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Комментарии

Читайте также

Профессии, связанные с ИИ: 5 уже исчезают, вот как оценить свою за вечер
ai

Профессии, связанные с ИИ: 5 уже исчезают, вот как оценить свою за вечер

Мне нужно написать how-to статью о профессиях, которые ИИ заменяет и создаёт. Текст должен быть практическим, с пошаговой инструкцией по оценке своей позиции…

8 мин
Что такое галлюцинации нейросетей: как MCP-сервер запрещает модели считать в уме
ai

Что такое галлюцинации нейросетей: как MCP-сервер запрещает модели считать в уме

Галлюцинация (когда нейросеть уверенно выдаёт цифру, которой нет в данных) остаётся главной причиной, по которой авторы и аналитики не доверяют языковым…

6 мин
Graphify строит граф зависимостей проекта: статический анализ кода Python без облака
ai

Graphify строит граф зависимостей проекта: статический анализ кода Python без облака

Библиотека Graphify анализирует Python-проект локально, без облака и без ключей к API, строит из кода граф знаний и показывает, какие модули связаны, где…

8 мин