Анализ резюме нейросетью на HH: почему простую модель заменили системой с «LLM-судьёй»
Анализ резюме нейросетью на HH: как устроена система, которая решает, подходите ли вы на вакансию, и сколько стоит её доверие к себе.

HH.ru раскрыл устройство нейроразбора резюме, ИИ-системы, которая оценивает соответствие кандидатов вакансиям по формализованным критериям, и объяснил, почему «наивный» подход с одной языковой моделью оказался тупиком.
Крупнейшая платформа по поиску работы в России перешла от простого сопоставления ключевых слов к анализу резюме нейросетью с проверяемыми рубриками и отдельным «LLM-судьёй». Это напрямую затрагивает миллионы соискателей и работодателей в РФ и СНГ.
Источник, статья Жени Орлова, LLM Eval Lead в hh.ru, описывает, как команда проектировала систему оценки для нейроразбора резюме. Речь не о стороннем стартапе и не о венчурном раунде в привычном смысле: hh.ru инвестирует внутренние ресурсы в разработку полноценного «продукта внутри продукта», отдельной системы контроля качества ИИ-оценок. Компания не раскрывает бюджет проекта, но описывает масштаб затрат: экспертная разметка, датасеты, мониторинг в продакшене, итерации промптов (промпт, текстовая инструкция для языковой модели) и содержание нескольких моделей одновременно.
| Параметр | Данные |
|---|---|
| Компания | hh.ru |
| Продукт | Нейроразбор резюме (навык ИИ-помощника hh.ru) |
| Тип инвестиции | Внутренняя разработка, сумму не раскрыли |
| Ключевая роль | Женя Орлов, LLM Eval Lead |
| Стадия | Продакшен, система работает и дорабатывается |
Что на самом деле построили в hh.ru?
Нейроразбор резюме, это навык ИИ-помощника hh.ru, который оценивает, насколько конкретный кандидат подходит под вакансию. Система проверяет соответствие по критериям: часть извлекается из текста вакансии автоматически, часть задаёт работодатель вручную.
Каждый критерий получает оценку: «соответствует полностью», «частично» или «не соответствует». Звучит просто, но команда столкнулась с тем, что даже живые эксперты не могли договориться между собой.
Пример из источника: критерий «уверенное знание Excel». Для одного рекрутера это означает владение функцией ВПР, для другого, формулы, сводные таблицы и макросы, для третьего, базовые операции с ячейками. Орлов называет это «разрывом контекста», когда один и тот же факт из резюме значит разные вещи для разных людей.
Почему «наивный» ИИ-судья не сработал?
Первый подход был ожидаемым: взять одну языковую модель и попросить её оценить результат другой модели по шкале от 1 до 10. Без жёстких правил модель сама решала, что считать хорошим ответом. Чем «7» отличается от «6»? Какие ошибки критичны? Результат, не проверяемая оценка, а ещё одно мнение, только теперь машинное.
Команда перешла к системе «рубрик», проверяемых критериев качества, привязанных к конкретной продуктовой ценности. Логика такая:
- Сформулировать, зачем продукт нужен пользователю.
- Определить, какие ошибки разрушают эту ценность.
- Перевести ошибки в бинарные проверки, на которые можно ответить «да» или «нет».
Например, галлюцинация (когда ИИ уверенно выдумывает то, чего не было) фактов о кандидате, это критическая ошибка. Если нейросеть приписывает соискателю навык, которого в резюме нет, рекрутер вынужден перепроверять каждую строку. Поэтому «модель не выдумывает факты о кандидате» стала отдельной проверяемой рубрикой.
Хорошая рубрика раскладывает субъективное на проверяемое
Орлов приводит конкретный пример проектирования. Задача: написать кандидату приглашение откликнуться.
Плохая рубрика: «Сообщение написано в профессиональном тоне и звучит вежливо». Слова «профессиональный» и «вежливо» не имеют якоря, разные модели интерпретируют их по-разному.
Хорошая рубрика раскладывает качество на бинарные проверки:
- Есть приветствие с именем кандидата.
- Ассистент представился как ИИ-помощник.
- Обозначена цель, предложить откликнуться.
- Указаны название вакансии и работодатель.
- Используется обращение на «вы», без сленга и эмодзи.
Для поиска дефектов в рубриках команда использует подход RIFT, таксономию типичных ошибок в критериях оценки. Среди дефектов: субъективизм, неатомарность (когда одна рубрика проверяет сразу несколько вещей), пропущенные требования, дублирование.
Хороший LLM-судья, это отдельный продукт со своими рубриками, датасетами, метриками качества и стоимостью эксплуатации. : Женя Орлов, LLM Eval Lead, hh.ru
Анализ резюме нейросетью на hh.ru теперь работает не как «чёрный ящик», а через формализованные критерии с бинарными проверками. Это значит, что соискатель может целенаправленно подстроить резюме под конкретные навыки из вакансии, а работодатель, задать собственные критерии оценки. Качество сопоставления напрямую зависит от того, насколько точно описаны требования.
Что это значит для вас?
Если вы соискатель или автор, помогающий с резюме: система hh.ru ищет не ключевые слова, а соответствие критериям в контексте. «Знаю Excel» в резюме без уточнения уровня, это зона неопределённости, где нейросеть может дать «частичное соответствие» вместо полного. Конкретика (какие функции, в каких задачах) повышает шансы пройти анализ резюме нейросетью.
Если вы работодатель или HR: вы можете задавать критерии вручную. Чем точнее формулировка, тем меньше «мусора» в подборке. «Уверенное знание Excel» хуже, чем «опыт работы со сводными таблицами и ВПР».
Если вы разработчик или маркетолог, строящий оценку контента через LLM: опыт hh.ru показывает, что «попросить модель оценить от 1 до 10» не работает. Рубрики с бинарными проверками и таксономия ошибок RIFT, это конкретный метод, который можно адаптировать для оценки текстов, карточек товаров, клиентских заявок.
По моим наблюдениям, hh.ru сделал то, что пока редко встречается на российском рынке: не просто внедрил нейросеть в продукт, а построил отдельную систему контроля качества этой нейросети. Это честный подход, потому что команда открыто признаёт проблему галлюцинаций и разрыва контекста. Оговорка: статья Орлова описывает методологию, но не приводит итоговых метрик точности системы, мы не знаем, насколько хорошо рубрики работают в продакшене на миллионах резюме. Практический шаг: если вы размещаете вакансии на hh.ru, попробуйте задать критерии максимально конкретно и посмотрите, изменится ли качество подборки кандидатов.
Главный вывод из опыта hh.ru прост и применим далеко за пределами рекрутинга: доверять ИИ-оценке можно только тогда, когда вы сначала формализовали, что именно считаете ошибкой, а потом научили отдельную систему эти ошибки ловить.

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».
Читайте также

Системы управления качеством с ИИ: как связать документы с реальными процессами
Системы управления качеством часто остаются стопкой папок, которые достают к аудиту и убирают обратно на полку, но ИИ позволяет превратить эту бюрократию в…
Как обучить бота в Телеграмме читать каналы и выдавать аналитику за один вечер
Telegram-бот, который сам читает каналы и выдаёт аналитику, можно собрать без навыков программирования за один вечер, если заранее решить вопрос доступа к…

Google Street View снял 13 000 км дорог Грузии: от квеври Кахетии до башен Сванетии
Google Street View покрыл 13 тысяч километров грузинских дорог, от виноделен Кахетии с глиняными сосудами квеври до средневековых башен Сванетии, и открыл эти…
Комментарии