Игорь Градов

5 июля 2026 г. в 12:30 МСК7 мин

Парсинг PDF локально: опенсорс-модели впервые догнали облачные API по точности

Извлечение данных из PDF и перевод их в структурированный JSON остаётся одной из самых частых задач для тех, кто работает с документами, и 2025 год принёс сразу несколько локальных инструментов с открытыми весами, которые делают это без отправки файлов на чужие серверы.

Почему это важно

Открытые модели (опенсорс) для парсинга PDF файлов впервые догнали по точности проприетарные API вроде Gemini, при этом работают на вашем железе и не требуют передачи конфиденциальных документов за пределы компании.

До недавнего времени парсинг PDF с приемлемым качеством означал подписку на облачный сервис и отправку каждой страницы на внешний сервер. Для компаний с чувствительными данными, договорами, счетами, медицинскими документами, это было неприемлемо. Сейчас появились модели с открытыми весами (open weights, когда разработчик публикует параметры модели и вы запускаете её локально), которые решают задачу на собственном оборудовании. Ниже разбираю конкретные инструменты и пошаговый путь от PDF до готового JSON.

Две задачи, которые прячутся за словами «из PDF в JSON»

Прежде чем выбирать инструмент, нужно понять, какую именно задачу вы решаете. Их ровно две, и путаница между ними стоит часов потерянного времени.

Извлечение по схеме. Вы заранее знаете, какие поля нужны: номер счёта, дата, сумма, контрагент. Модель заполняет вашу JSON-схему значениями из документа. Подходит для счетов-фактур, договоров, анкет.
Парсинг документа целиком. Модель восстанавливает структуру страницы: заголовки, абзацы, таблицы, формулы, порядок чтения. На выходе JSON или Markdown. Подходит для подготовки корпусов под RAG (retrieval-augmented generation, когда ИИ ищет ответ в вашей базе документов) и ИИ-агентов.

Некоторым командам нужно и то, и другое. Но начинать стоит с вопроса: «Мне нужны конкретные поля или полная структура?»

Что понадобится

Компьютер с GPU. Для компактных моделей (258M параметров) хватит видеокарты с 8 ГБ памяти. Для моделей на 4B и 9B параметров нужна карта уровня A100 или потребительская с 24 ГБ.
Python 3.10+ и менеджер пакетов pip.
PDF-файлы для обработки, подойдут счета, договоры, отчёты.
JSON-схема (если вы выбрали извлечение по схеме), шаблон с именами полей, которые модель должна заполнить.
Время: установка и первый запуск занимают от 15 минут до часа в зависимости от скорости интернета и размера модели.

Пошаговая инструкция

Вариант А: извлечение по схеме (на примере Datalab Lift)

Lift, модель на 9 миллиардов параметров от команды Datalab (авторы Marker и Surya). Построена на основе Qwen 3.5, работает локально через Hugging Face или через сервер vLLM. Обрабатывает многостраничные документы за один проход.

Установите пакет:

pip install lift-pdf

Запустите сервер vLLM и выполните извлечение:

lift_vllm
lift_extract input.pdf ./output --schema schema.json

Или используйте Python напрямую:

from lift import extract

result = extract("document.pdf", "schema.json")
if result.extraction is not None:
    data = result.extraction  # словарь, соответствующий вашей схеме

По бенчмарку Datalab на 225 документах, Lift достигает 90,2% точности по полям при медианной задержке 9,5 секунды. Для сравнения: NuExtract 3 показывает 81,5%, а базовая Qwen 3.5-9B без дообучения (fine-tuning, обучение модели на ваших примерах под узкую задачу) даёт 76,3%. Облачный Gemini Flash 3.5 чуть впереди: 91,3%. Но полная точность по всем полям документа остаётся низкой у всех локальных моделей: у Lift это 20,9%.

Код Lift распространяется под лицензией Apache-2.0. Веса используют модифицированную лицензию OpenRAIL-M: бесплатно для исследований, личного использования и стартапов с выручкой или финансированием до 5 млн долларов. Коммерческий самохостинг требует отдельной лицензии.

Вариант Б: парсинг документа целиком (на примере IBM Docling)

Docling начинался в IBM Research и сейчас размещён в LF AI & Data Foundation. Парсит PDF, DOCX, PPTX, XLSX, HTML, изображения. На выходе Markdown, HTML или JSON с сохранением структуры: заголовки, таблицы, формулы в формате LaTeX, порядок чтения.

Установите Docling по инструкции из репозитория проекта.
Подайте на вход PDF.
Получите структурированный JSON с полной разметкой документа.

Для конвейера внутри Docling есть компактная модель Granite-Docling-258M, всего 258 миллионов параметров. На GPU A100 она обрабатывает страницу примерно за 0,35 секунды. Лицензия Apache 2.0, без ограничений на коммерческое использование.

Docling интегрируется с LangChain, LlamaIndex, Crew AI, Haystack и поставляется с MCP-сервером. IBM также предлагает управляемую версию через платформу watsonx.

Какие ещё инструменты стоит рассмотреть?

NuMind NuExtract 3. Модель на 4 миллиарда параметров, мультимодальная (работает с текстом и изображениями), мультиязычная. Объединяет извлечение по схеме и парсинг содержимого в одной модели. Работает через vLLM с OpenAI-совместимым API.
MinerU от OpenDataLab и Шанхайской лаборатории ИИ. Конвертирует PDF, изображения, DOCX, PPTX, XLSX в Markdown и JSON. Текущая модель MinerU2.5-Pro нацелена на сложные макеты с таблицами, пересекающими страницы. Лицензия недавно сменилась с AGPL-3.0 на кастомную, основанную на Apache 2.0, что упрощает коммерческое использование.
Datalab Marker. Конвейер для конвертации документов в Markdown, JSON, HTML. Поддерживает таблицы, формулы, код. На стороннем бенчмарке olmOCR-Bench набирает около 76,1 балла. Код под GPL-3.0, веса бесплатны для стартапов с оборотом до 2 млн долларов.

Как это выглядит на практике

Допустим, у вас стопка счетов-фактур в PDF. Вы создаёте JSON-схему с полями: номер счёта, дата, поставщик, сумма, НДС. Запускаете Lift с этой схемой. На выходе получаете JSON-файл, где каждому счёту соответствует заполненный набор полей. Для документа на три страницы модель обрабатывает все страницы за один проход и корректно извлекает значения, даже если поле «итого» находится на последней странице, а «поставщик» на первой.

Частые ошибки

Путаница между двумя задачами. Если вам нужны три поля из договора, не запускайте полный парсинг документа: это медленнее и даёт лишние данные. И наоборот, извлечение по схеме не восстановит структуру страницы для RAG.
Ожидание стопроцентной точности. Даже лучшие локальные модели дают полную точность по всем полям документа в районе 20%. Всегда закладывайте этап проверки человеком.
Игнорирование лицензий. Бесплатность для исследований не означает бесплатность для бизнеса. У Lift порог 5 млн долларов выручки, у Marker 2 млн. Проверяйте условия до внедрения в продукт.
Запуск на слабом GPU. Модель на 9 миллиардов параметров на карте с 8 ГБ памяти либо не запустится, либо будет работать неприемлемо медленно.

Что делать с этим прямо сейчас по ролям?

Авторам Дзена и копирайтерам. Если вы работаете с фактурой из PDF-отчётов, исследований, пресс-релизов, парсинг PDF через Docling или Marker превращает документ в чистый Markdown. Его можно сразу подать в ChatGPT, YandexGPT или GigaChat как контекст для статьи, без ручного копирования таблиц.

Маркетологам. Извлечение по схеме (Lift, NuExtract 3) автоматизирует обработку коммерческих предложений, прайсов и отчётов конкурентов. Результат в JSON сразу ложится в CRM или таблицу.

Предпринимателям в РФ и СНГ. Все перечисленные инструменты работают локально, данные не покидают ваш сервер. Это критично для бухгалтерских документов, договоров, персональных данных. Из доступных в России облачных альтернатив: YandexGPT и GigaChat умеют работать с текстом, но полноценного парсинга PDF с сохранением структуры пока не предлагают. Локальные модели с открытыми весами остаются основным вариантом.

Мнение редакции dzen.guru

Я тестировал несколько из этих инструментов и вижу главное: парсинг PDF файлов с открытыми моделями в 2025 году перестал быть компромиссом. Разрыв с облачными API сократился до 1-2 процентных пунктов по точности полей. При этом вы не платите за каждую страницу и не отправляете документы на чужие серверы. Честная оговорка: полная автоматизация без проверки человеком пока невозможна. Полная точность по всем полям документа остаётся низкой у всех моделей, и я рекомендую закладывать ручную сверку хотя бы на выборочной основе. Начните с Docling, если нужен полный парсинг, и с Lift, если нужны конкретные поля. Обе установки занимают меньше часа.

Попробуйте AI-инструменты dzen.guru

Учим авторов и предпринимателей использовать нейросети для реальных задач с контентом и документами

Узнать больше

Для большинства задач с конфиденциальными документами в РФ локальные модели с открытыми весами уже не запасной вариант, а основной: они дешевле, данные остаются внутри, а точность на уровне «достаточно для автоматизации с проверкой». Ставьте Docling или Lift сегодня и начинайте с десяти документов, которые вы обычно разбираете вручную.

Поделиться:Telegram VK

Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Промпты для нейросети от Anthropic: 4 паттерна, которые работают с любой моделью

Компания Anthropic открыла библиотеку промптов для Claude Code, и автор dzen.guru проверил пять паттернов из неё на живой задаче: парсинг собственных статей с…

5 июля в 14:30 МСК6 мин

Yttri 0.86 объединил ИИ-агента в одном окне и открыл публичный SDK для плагинов

Yttri 0.86 собрал ИИ-агента в одном окне, добавил плагин для Obsidian и локальный движок MLX для Mac, и всё это произошло в бета-версии, которая впервые…

5 июля в 14:15 МСК6 мин

Кибербезопасность и искусственный интеллект: урок цифры из трёх реальных сбоев с Claude

Материал представляет собой личный блог-пост (на русском языке) с тремя историями о сбоях при делегировании задач ИИ-ассистенту Claude. Автор описывает…

5 июля в 13:30 МСК6 мин