Нейросеть для конвертации PDF в Word и JSON: модель lift извлекает поля с точностью 90% локально

Модель Datalab lift, построенная на архитектуре с открытыми весами (open weights) и размером 9 миллиардов параметров, извлекает структурированные данные из PDF и изображений, возвращая результат в гарантированно валидном JSON, и делает это локально, без отправки документов в облако.

Почему это важно

Впервые небольшая модель с открытыми весами для извлечения данных из документов показала точность на уровне крупных облачных API, при этом работает на одном GPU и не требует передачи файлов на сторонние серверы.

Лабораторию Datalab знают по открытым OCR-инструментам: chandra, marker и surya. Модель lift продолжает эту линейку, но решает другую задачу: не просто распознаёт текст, а извлекает конкретные поля по заданной схеме. Вы описываете, какие данные нужны (номер счёта, сумма, список позиций), передаёте PDF, и получаете заполненный JSON. Для тех, кто ищет нейросеть для конвертации PDF в структурированные данные, это принципиально новый инструмент: не просто «PDF в Word», а «PDF в точный набор полей».

Показатель	Значение	Источник
Размер модели	9 млрд параметров	Datalab
Точность по полям (field accuracy)	90,2%	Бенчмарк Datalab, 225 документов
Точность по целым документам (full-document accuracy)	20,9%	Бенчмарк Datalab, 225 документов
Медианная скорость обработки	9,5 секунды на документ	Datalab
Объём бенчмарка	225 документов, около 11 000 оцениваемых полей	Datalab
Длина документов в бенчмарке	от 6 до 64 страниц	Datalab
Лицензия кода	Apache 2.0	Datalab
Лицензия весов	модифицированная OpenRAIL-M	Datalab

Как работает извлечение данных?

Вы передаёте модели два входа: сам документ (PDF или изображение) и JSON-схему, описывающую, какие поля нужно достать. Модель читает весь документ целиком за один проход, даже если он многостраничный, и значения могут быть разбросаны по разным страницам.

Ключевой механизм называется schema-constrained decoding, декодирование с ограничением по схеме. Работает это так: на каждом шаге генерации модель выбирает следующий токен (минимальную единицу текста) только из тех, которые не нарушают заданную структуру. Токены, ломающие JSON, блокируются ещё до выбора. Результат всегда соответствует схеме по форме.

Но есть принципиальное ограничение. Гарантия распространяется на структуру и типы данных, а не на смысл. Поле с типом «число» всегда будет содержать число. Правильное ли это число, модель не гарантирует. Валидность формата и корректность содержания это разные вещи.

Если модель не находит значение в документе, она возвращает null вместо того, чтобы выдумать ответ. Это обученное поведение: галлюцинация (когда ИИ уверенно выдумывает данные, которых нет в документе) здесь опаснее пустого поля, потому что ложный номер договора или сумму трудно отловить дальше по цепочке.

Что показал бенчмарк?

90,2% точности по отдельным полям. Среди моделей с открытыми весами (open weights), которые можно развернуть локально, lift показала лучший результат в тесте Datalab.
Быстрее облачных API. Медианное время 9,5 секунды на документ, по данным Datalab, примерно в 3 раза быстрее, чем Gemini Flash 3.5, при сопоставимой точности по полям (разница около одного процентного пункта).
20,9% точности по целым документам. Это жёсткая метрика: каждое поле в документе должно быть извлечено верно. Результат выше, чем у других локальных моделей в тесте, но сам показатель говорит о том, что четыре из пяти документов содержат хотя бы одну ошибку.
Конкуренты в тесте: NuExtract3 (специализированная модель для извлечения) и Qwen3.5-9B (мультимодальная модель общего назначения, приспособленная к задаче). lift обошла обе по точности полей.

Тест включал «ловушки»: значения, растянутые через несколько страниц, поля, которые должны остаться пустыми, и похожие, но неправильные варианты ответов. Все модели получали одинаковые отрендеренные изображения страниц.

Как это читать

Бенчмарк подготовлен самой Datalab, а не независимой лабораторией. 225 документов, выборка небольшая. Тест проводился на одном GPU с 8 параллельными запросами на документ; на другом оборудовании скорость будет отличаться. Полная точность по документам (20,9%) означает, что для задач, где нужна безошибочная обработка целого файла, модель пока требует ручной проверки. Наконец, Datalab не раскрывает языковой состав бенчмарка: неизвестно, входили ли туда русскоязычные документы.

Что делать с этим прямо сейчас?

Разработчику и техническому специалисту. lift можно развернуть локально через HuggingFace или vLLM-сервер (Datalab рекомендует второй вариант для продакшена). Код под Apache 2.0, веса под модифицированной лицензией OpenRAIL-M. Если вы строите пайплайн обработки договоров, счетов или актов и не хотите отправлять документы в облако, это рабочий вариант для прототипа. Но проверяйте схемы: конструкции enum, anyOf/oneOf, $ref и additionalProperties не компилируются. Модель не упадёт с ошибкой, а молча уберёт ограничение и сгенерирует ответ без гарантии структуры. Всегда валидируйте результат на своей стороне.

Автору и контент-маркетологу. Если вы работаете с большими объёмами PDF (прайсы, каталоги, отчёты) и ищете нейросеть для конвертации PDF в Word или структурированный формат, lift пока не замена привычным конвертерам. Это инструмент для точечного извлечения полей, а не для полного воспроизведения документа. Но если задача конкретная (достать из 50 счетов номера и суммы), модель справляется.

Предпринимателю в РФ. Модель работает локально, данные не покидают ваш сервер. Для компаний с чувствительными документами (финансы, персональные данные) это существенно. Облачные альтернативы (Azure Document Intelligence, Google Document AI) требуют отправки файлов на зарубежные серверы. Из российских инструментов схожую задачу OCR решают сервисы «Яндекса» и отдельные модули GigaChat, но специализированной модели для schema-driven извлечения с открытыми весами на рынке РФ пока нет.

Мнение редакции dzen.guru

Двадцать процентов полной точности по документам это честная, но суровая цифра. Она означает, что lift пока инструмент для черновой автоматизации с обязательной проверкой, а не для замкнутого цикла без человека. Но сам подход (схема на входе, валидный JSON на выходе, локальная работа) выглядит правильнее, чем попытки заставить общую языковую модель парсить счета через промпт. Я ожидаю, что через два-три итерации точность по документам поднимется до уровня, при котором ручная проверка понадобится только для аномальных случаев. Пока же lift полезнее всего там, где ошибка в одном поле не критична, а объём файлов делает ручной ввод нерентабельным.

Если у вас есть стопка однотипных PDF и конкретный список полей, которые нужно из них достать, lift стоит попробовать на тестовой выборке из десяти документов: так вы за час поймёте, хватает ли точности для вашей задачи, до того как строить полный пайплайн.

По данным Datalab

Поделиться:Telegram VK

Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Профессии, связанные с ИИ: 5 уже исчезают, вот как оценить свою за вечер

Мне нужно написать how-to статью о профессиях, которые ИИ заменяет и создаёт. Текст должен быть практическим, с пошаговой инструкцией по оценке своей позиции…

24 июня в 15:15 МСК8 мин

Что такое галлюцинации нейросетей: как MCP-сервер запрещает модели считать в уме

Галлюцинация (когда нейросеть уверенно выдаёт цифру, которой нет в данных) остаётся главной причиной, по которой авторы и аналитики не доверяют языковым…

24 июня в 14:45 МСК6 мин

Graphify строит граф зависимостей проекта: статический анализ кода Python без облака

Библиотека Graphify анализирует Python-проект локально, без облака и без ключей к API, строит из кода граф знаний и показывает, какие модули связаны, где…

24 июня в 13:30 МСК8 мин