Gold set и CI/CD для AI invoice extraction
Команда меняет prompts/models/rules для invoice parsing. Как не сломать качество при каждом изменении?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Нужен versioned gold set документов, field-level метрики, regression thresholds, prompt/model versioning, canary и rollback.
Полный разбор
Для AI extraction CI/CD должен проверять не только "код собирается", но и качество извлечения. Нужен фиксированный gold set: документы разных поставщиков, scans/native PDFs, edge cases, плохие таблицы, разные валюты и языки. Для каждого документа хранят ожидаемые поля и line items.
Метрики лучше считать field-level: exact match или normalized match для invoice number/date/vendor/total, precision/recall для line items, numeric tolerance для сумм, а также долю документов, ушедших в human review. Каждый prompt, rule set и model version должны быть версионированы.
Перед rollout новая версия проходит regression thresholds, затем canary на части трафика. Если растет error rate, latency или human-review rate, нужен rollback.
Типичные ошибки
- Оценивать только на одном красивом demo PDF.
- Не версионировать prompt и model configuration.
- Не иметь rollback при ухудшении качества.
Как отвечать на собеседовании
- Говори field-level metrics, не просто overall accuracy.
- Добавь canary и rollback как production часть.