Назад к подготовке

Gold set и CI/CD для AI invoice extraction

Команда меняет prompts/models/rules для invoice parsing. Как не сломать качество при каждом изменении?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Нужен versioned gold set документов, field-level метрики, regression thresholds, prompt/model versioning, canary и rollback.

Полный разбор

Для AI extraction CI/CD должен проверять не только "код собирается", но и качество извлечения. Нужен фиксированный gold set: документы разных поставщиков, scans/native PDFs, edge cases, плохие таблицы, разные валюты и языки. Для каждого документа хранят ожидаемые поля и line items.

Метрики лучше считать field-level: exact match или normalized match для invoice number/date/vendor/total, precision/recall для line items, numeric tolerance для сумм, а также долю документов, ушедших в human review. Каждый prompt, rule set и model version должны быть версионированы.

Перед rollout новая версия проходит regression thresholds, затем canary на части трафика. Если растет error rate, latency или human-review rate, нужен rollback.

Типичные ошибки

  • Оценивать только на одном красивом demo PDF.
  • Не версионировать prompt и model configuration.
  • Не иметь rollback при ухудшении качества.

Как отвечать на собеседовании

  • Говори field-level metrics, не просто overall accuracy.
  • Добавь canary и rollback как production часть.