OCR-нейросеть Mistral OCR 4 отдаёт координаты каждого блока: $4 за 1 000 страниц
Mistral AI выпустила OCR 4, модель для распознавания документов, которая возвращает не просто текст, а структуру страницы с координатами каждого блока и оценкой уверенности по каждому слову, и сразу предложила развёртывание в одном контейнере.

OCR-нейросеть впервые отдаёт не «плоский» текст, а размеченную карту документа: заголовок, таблица, подпись, формула, и к каждому элементу координаты и процент уверенности. Для корпоративного поиска и автоматизации это разница между «прочитать PDF» и «понять, что где лежит на странице».
До сих пор большинство OCR-моделей, включая предыдущую Mistral OCR 3, конвертировали страницу в чистый текст и таблицы. Системы, которым нужно цитировать фрагмент, вырезать персональные данные или проверить результат вручную, получали текст без привязки к месту на странице. OCR 4, по данным Mistral AI, закрывает этот пробел: каждый блок получает рамку (bounding box, прямоугольник с координатами элемента на странице), тип (заголовок, таблица, уравнение, подпись) и числовой показатель уверенности.
| Что | Когда | Кто выпустил | Цена |
|---|---|---|---|
| Mistral OCR 4, модель распознавания и структурирования документов | Июнь 2025 | Mistral AI | 4 доллара за 1 000 страниц, 2 доллара при пакетной обработке (Batch API) |
Что умеет OCR 4?
- Разметка блоков с координатами. Каждый элемент страницы (заголовок, таблица, формула, подпись) получает рамку и тип. Это позволяет подсвечивать источник цитаты прямо в документе, а не искать вручную.
- Оценка уверенности по словам. Модель выставляет числовой балл для каждого слова и страницы. Фрагменты с низкой уверенностью можно автоматически отправлять на проверку человеку, а остальные пропускать без ручного контроля.
- 170 языков из 10 языковых групп. Mistral AI отдельно отмечает улучшения для редких и малоресурсных языков. Русский входит в число поддерживаемых.
- Один контейнер для развёртывания на своих серверах. Корпоративные клиенты могут запустить модель внутри своей инфраструктуры, без передачи данных наружу.
- Один API-эндпоинт для двух режимов. Базовое извлечение текста и продвинутый режим Document AI (когда результат укладывается в заданную схему с полями) работают через один и тот же вызов.
Как выглядят результаты тестов?
Mistral AI привлекла независимых оценщиков, которые сравнили OCR 4 с другими OCR-нейросетями, универсальными языковыми моделями и корпоративными сервисами обработки документов. По данным компании, оценщики предпочли OCR 4 в среднем в 72% случаев. Оценка проводилась на более чем 600 документах на более чем 12 языках.
На автоматических бенчмарках модель набрала 85,20 на публичном OlmOCRBench и 93,07 на OmniDocBench.
Два клиентских кейса добавляют контекст. Компания Rogo сообщила о сопоставимой точности при стоимости примерно в 8 раз ниже и задержке в 17 раз меньше по сравнению с агентными (agentic, то есть работающими через цепочку автономных шагов) парсерами. Компания Anaqua зафиксировала скорость обработки примерно в 4 раза выше, чем у предыдущего поставщика.
Где OCR 4 применяется?
Mistral AI описывает пять основных сценариев:
- Разбор и извлечение данных из документов. Многоязычный контракт превращается в структурированный Markdown для индексации.
- RAG-пайплайны (RAG, Retrieval-Augmented Generation, метод, когда ИИ сначала ищет релевантные фрагменты в базе, а потом формирует ответ). Размеченные блоки подаются в поисковую систему, и ответ приходит с точной ссылкой на источник.
- Агентные сценарии. ИИ-агент для обработки счетов получает типизированные поля и координаты и заполняет формы автоматически.
- Корпоративный поиск. OCR 4 работает как компонент загрузки данных для поиска и извлечения сущностей по архиву.
Компания прямо оговаривает ограничения: OCR 4 распознаёт документы, а не принимает решения. Модель не предназначена для медицинской диагностики, юридических заключений, финансовых решений с высокими ставками, систем критической безопасности и обработки аудио или видео.
Как попробовать OCR-нейросеть онлайн?
- Зарегистрируйтесь на платформе Mistral AI и получите API-ключ.
- Установите Python-библиотеку
mistralaiи вызовите методclient.ocr.processс параметромmodel="mistral-ocr-latest". Для получения блоков с координатами добавьтеinclude_blocks=True. - Отправьте ссылку на PDF, DOC, PPT или документ в формате OpenDocument. Ответ придёт в JSON с массивом страниц: текст в Markdown, изображения, таблицы, гиперссылки, размеры и оценки уверенности.
- Для пакетной обработки большого архива используйте Batch API, цена снижается с 4 до 2 долларов за 1 000 страниц.
Сравнение с российскими аналогами
В России задачи OCR решают несколько инструментов, но прямого аналога OCR 4 с блочной разметкой и координатами пока нет.
| Mistral OCR 4 | YandexGPT / GigaChat | |
|---|---|---|
| Задача | Распознавание и структурирование документов с координатами блоков | Генерация текста, ответы на вопросы; OCR не является основной функцией |
| Языки | 170, включая редкие | Русский и английский как основные |
| Развёртывание на своих серверах | Да, один контейнер | Облачный API |
| Стоимость OCR | 2 от 4 долларов за 1 000 страниц | Тарифы за токены (токен, единица текста, которую модель обрабатывает за раз), OCR как отдельная услуга не выделена |
Для автора или предпринимателя, которому нужно оцифровать архив документов на русском, OCR 4 остаётся доступным через API Mistral AI из России. Развёртывание в собственном контейнере снимает вопрос передачи данных за рубеж.
Я тестировал предыдущую версию Mistral OCR на технических отчётах и договорах на русском. Текст извлекался чисто, но без привязки к месту на странице приходилось вручную искать, откуда взят фрагмент. Координаты блоков и оценка уверенности в OCR 4, по описанию, решают именно эту проблему.
Цена в 2 доллара за 1 000 страниц при пакетной обработке делает модель доступной даже для небольшой редакции или ИП. Для сравнения: ручная оцифровка одной страницы в России обходится от 5 до 30 рублей, то есть 1 000 страниц стоят от 5 000 рублей. Здесь, около 160 рублей за тысячу при пакетном тарифе.
Что сделать сегодня. Если у вас есть архив PDF-документов на русском, попробуйте отправить 5 от 10 страниц через API и проверьте качество на своих текстах. Уверенность по словам покажет, где модель сомневается, и вы сразу поймёте, подходит ли OCR-нейросеть для вашего типа документов.
Оговорка: компания не раскрывает детали обучающих данных, и результаты на конкретных русскоязычных шрифтах, рукописном тексте или сканах низкого качества могут отличаться от бенчмарков.
Что делать с этим прямо сейчас, по ролям
Автору Дзена. Если публикуете обзоры книг, исследований или юридических документов, OCR-нейросеть онлайн позволяет быстро вытащить цитаты с точной привязкой к странице и абзацу. Ссылка на конкретный блок документа повышает доверие читателя.
Маркетологу. Автоматическая обработка коммерческих предложений, прайс-листов и отчётов конкурентов экономит часы ручной работы. Оценка уверенности помогает понять, какие фрагменты нужно перепроверить.
Предпринимателю в РФ. Развёртывание в одном контейнере означает, что данные клиентов не уходят за периметр. Для компаний, работающих с персональными данными или коммерческой тайной, это снимает регуляторные риски.
Частые вопросы
Работает ли OCR 4 с русским языком?
Да. Mistral AI заявляет поддержку 170 языков из 10 языковых групп. Русский входит в число поддерживаемых. Компания отдельно отмечает улучшения для редких и малоресурсных языков, но конкретные метрики по русскому не приведены.
Можно ли использовать OCR 4 без отправки документов в облако?
Да. Корпоративным клиентам доступно развёртывание модели в одном контейнере на собственных серверах. Это закрывает требования по локализации данных и комплаенсу.
Чем OCR 4 отличается от обычного распознавания текста?
Обычный OCR возвращает текст. OCR 4 возвращает структуру: каждый блок на странице получает тип (заголовок, таблица, формула), координаты и числовой балл уверенности. Это позволяет не просто читать документ, а автоматически обрабатывать его элементы по отдельности.
Для тех, кто работает с большими архивами документов, OCR 4 стоит проверить на реальных файлах именно сейчас, пока Batch API доступен по сниженной цене и пока конкуренты не подтянули блочную разметку до того же уровня.

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».
Читайте также

Профессии, связанные с ИИ: 5 уже исчезают, вот как оценить свою за вечер
Мне нужно написать how-to статью о профессиях, которые ИИ заменяет и создаёт. Текст должен быть практическим, с пошаговой инструкцией по оценке своей позиции…

Что такое галлюцинации нейросетей: как MCP-сервер запрещает модели считать в уме
Галлюцинация (когда нейросеть уверенно выдаёт цифру, которой нет в данных) остаётся главной причиной, по которой авторы и аналитики не доверяют языковым…

Graphify строит граф зависимостей проекта: статический анализ кода Python без облака
Библиотека Graphify анализирует Python-проект локально, без облака и без ключей к API, строит из кода граф знаний и показывает, какие модули связаны, где…
Комментарии