Игорь Градов
Игорь Градов
5 мин
ai

Анализ резюме нейросетью на HH: почему простую модель заменили системой с «LLM-судьёй»

Анализ резюме нейросетью на HH: как устроена система, которая решает, подходите ли вы на вакансию, и сколько стоит её доверие к себе.

Анализ резюме нейросетью на HH: почему простую модель заменили системой с «LLM-судьёй»

HH.ru раскрыл устройство нейроразбора резюме, ИИ-системы, которая оценивает соответствие кандидатов вакансиям по формализованным критериям, и объяснил, почему «наивный» подход с одной языковой моделью оказался тупиком.

Почему это важно

Крупнейшая платформа по поиску работы в России перешла от простого сопоставления ключевых слов к анализу резюме нейросетью с проверяемыми рубриками и отдельным «LLM-судьёй». Это напрямую затрагивает миллионы соискателей и работодателей в РФ и СНГ.

Источник, статья Жени Орлова, LLM Eval Lead в hh.ru, описывает, как команда проектировала систему оценки для нейроразбора резюме. Речь не о стороннем стартапе и не о венчурном раунде в привычном смысле: hh.ru инвестирует внутренние ресурсы в разработку полноценного «продукта внутри продукта», отдельной системы контроля качества ИИ-оценок. Компания не раскрывает бюджет проекта, но описывает масштаб затрат: экспертная разметка, датасеты, мониторинг в продакшене, итерации промптов (промпт, текстовая инструкция для языковой модели) и содержание нескольких моделей одновременно.

Параметр Данные
Компания hh.ru
Продукт Нейроразбор резюме (навык ИИ-помощника hh.ru)
Тип инвестиции Внутренняя разработка, сумму не раскрыли
Ключевая роль Женя Орлов, LLM Eval Lead
Стадия Продакшен, система работает и дорабатывается

Что на самом деле построили в hh.ru?

Нейроразбор резюме, это навык ИИ-помощника hh.ru, который оценивает, насколько конкретный кандидат подходит под вакансию. Система проверяет соответствие по критериям: часть извлекается из текста вакансии автоматически, часть задаёт работодатель вручную.

Каждый критерий получает оценку: «соответствует полностью», «частично» или «не соответствует». Звучит просто, но команда столкнулась с тем, что даже живые эксперты не могли договориться между собой.

Пример из источника: критерий «уверенное знание Excel». Для одного рекрутера это означает владение функцией ВПР, для другого, формулы, сводные таблицы и макросы, для третьего, базовые операции с ячейками. Орлов называет это «разрывом контекста», когда один и тот же факт из резюме значит разные вещи для разных людей.

Почему «наивный» ИИ-судья не сработал?

Первый подход был ожидаемым: взять одну языковую модель и попросить её оценить результат другой модели по шкале от 1 до 10. Без жёстких правил модель сама решала, что считать хорошим ответом. Чем «7» отличается от «6»? Какие ошибки критичны? Результат, не проверяемая оценка, а ещё одно мнение, только теперь машинное.

Команда перешла к системе «рубрик», проверяемых критериев качества, привязанных к конкретной продуктовой ценности. Логика такая:

  • Сформулировать, зачем продукт нужен пользователю.
  • Определить, какие ошибки разрушают эту ценность.
  • Перевести ошибки в бинарные проверки, на которые можно ответить «да» или «нет».

Например, галлюцинация (когда ИИ уверенно выдумывает то, чего не было) фактов о кандидате, это критическая ошибка. Если нейросеть приписывает соискателю навык, которого в резюме нет, рекрутер вынужден перепроверять каждую строку. Поэтому «модель не выдумывает факты о кандидате» стала отдельной проверяемой рубрикой.

Хорошая рубрика раскладывает субъективное на проверяемое

Орлов приводит конкретный пример проектирования. Задача: написать кандидату приглашение откликнуться.

Плохая рубрика: «Сообщение написано в профессиональном тоне и звучит вежливо». Слова «профессиональный» и «вежливо» не имеют якоря, разные модели интерпретируют их по-разному.

Хорошая рубрика раскладывает качество на бинарные проверки:

  • Есть приветствие с именем кандидата.
  • Ассистент представился как ИИ-помощник.
  • Обозначена цель, предложить откликнуться.
  • Указаны название вакансии и работодатель.
  • Используется обращение на «вы», без сленга и эмодзи.

Для поиска дефектов в рубриках команда использует подход RIFT, таксономию типичных ошибок в критериях оценки. Среди дефектов: субъективизм, неатомарность (когда одна рубрика проверяет сразу несколько вещей), пропущенные требования, дублирование.

Хороший LLM-судья, это отдельный продукт со своими рубриками, датасетами, метриками качества и стоимостью эксплуатации. : Женя Орлов, LLM Eval Lead, hh.ru

Для авторов и HR-специалистов

Анализ резюме нейросетью на hh.ru теперь работает не как «чёрный ящик», а через формализованные критерии с бинарными проверками. Это значит, что соискатель может целенаправленно подстроить резюме под конкретные навыки из вакансии, а работодатель, задать собственные критерии оценки. Качество сопоставления напрямую зависит от того, насколько точно описаны требования.

Что это значит для вас?

Если вы соискатель или автор, помогающий с резюме: система hh.ru ищет не ключевые слова, а соответствие критериям в контексте. «Знаю Excel» в резюме без уточнения уровня, это зона неопределённости, где нейросеть может дать «частичное соответствие» вместо полного. Конкретика (какие функции, в каких задачах) повышает шансы пройти анализ резюме нейросетью.

Если вы работодатель или HR: вы можете задавать критерии вручную. Чем точнее формулировка, тем меньше «мусора» в подборке. «Уверенное знание Excel» хуже, чем «опыт работы со сводными таблицами и ВПР».

Если вы разработчик или маркетолог, строящий оценку контента через LLM: опыт hh.ru показывает, что «попросить модель оценить от 1 до 10» не работает. Рубрики с бинарными проверками и таксономия ошибок RIFT, это конкретный метод, который можно адаптировать для оценки текстов, карточек товаров, клиентских заявок.

Мнение редакции dzen.guru

По моим наблюдениям, hh.ru сделал то, что пока редко встречается на российском рынке: не просто внедрил нейросеть в продукт, а построил отдельную систему контроля качества этой нейросети. Это честный подход, потому что команда открыто признаёт проблему галлюцинаций и разрыва контекста. Оговорка: статья Орлова описывает методологию, но не приводит итоговых метрик точности системы, мы не знаем, насколько хорошо рубрики работают в продакшене на миллионах резюме. Практический шаг: если вы размещаете вакансии на hh.ru, попробуйте задать критерии максимально конкретно и посмотрите, изменится ли качество подборки кандидатов.

Главный вывод из опыта hh.ru прост и применим далеко за пределами рекрутинга: доверять ИИ-оценке можно только тогда, когда вы сначала формализовали, что именно считаете ошибкой, а потом научили отдельную систему эти ошибки ловить.

Поделиться:TelegramVK
Игорь Градов
Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Комментарии

Читайте также

Системы управления качеством с ИИ: как связать документы с реальными процессами
ai

Системы управления качеством с ИИ: как связать документы с реальными процессами

Системы управления качеством часто остаются стопкой папок, которые достают к аудиту и убирают обратно на полку, но ИИ позволяет превратить эту бюрократию в…

7 мин
ai

Как обучить бота в Телеграмме читать каналы и выдавать аналитику за один вечер

Telegram-бот, который сам читает каналы и выдаёт аналитику, можно собрать без навыков программирования за один вечер, если заранее решить вопрос доступа к…

6 мин
Google Street View снял 13 000 км дорог Грузии: от квеври Кахетии до башен Сванетии
ai

Google Street View снял 13 000 км дорог Грузии: от квеври Кахетии до башен Сванетии

Google Street View покрыл 13 тысяч километров грузинских дорог, от виноделен Кахетии с глиняными сосудами квеври до средневековых башен Сванетии, и открыл эти…

4 мин