К тренажеру
ВопросHardnlp-ragРеальный собес

Как валидировать LLM-фичи и не дать модели додумывать

LLM извлекает признаки из PDF-отчета: например, будущий план производства. Как проверить, что признак основан на документе, а не на внешних знаниях или догадках?

Короткий ответ

Нужно требовать evidence: ссылка на страницу/таблицу/цитату, confidence, тип извлечения, missing/unknown вместо догадки и human review для спорных признаков.

Полный разбор

Контроль начинается с формата вывода. LLM должна возвращать не только значение признака, но и evidence: page id, fragment id, цитату, единицы измерения, период, confidence и reason. Если evidence нет, значение должно быть null/unknown.

Дальше нужна валидация: schema validation, range checks, consistency checks между таблицами и текстом, сравнение с предыдущими отчетами, ручная разметка golden set и метрики extraction quality. Для числовых признаков полезны exact match или tolerance-based метрики, для категориальных — accuracy/F1.

В production стоит логировать source snippets и отдельно мониторить долю unknown, частоту конфликтов и drift форматов отчетов. Для high-impact признаков нужен human-in-the-loop.

Теория

Grounded extraction отличается от свободной генерации: модель должна извлечь то, что есть в источнике, и признаться, когда данных нет.

Типичные ошибки

  • Принимать число от LLM без ссылки на источник.
  • Не разрешить модели отвечать unknown.
  • Не делать отдельную оценку качества extraction перед forecast quality.

Как отвечать на собеседовании

  • Повтори принцип: no evidence -> no feature.
  • Раздели validation на schema/range checks, golden set и human review.