Тестирование и версионирование prompt-ов
Как тестировать и выкатывать prompt changes в LLM-продукте?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Нужны versioned prompts, gold set сценариев, traces, автоматические и human metrics, regression tests по плохим кейсам и rollout с мониторингом качества, latency и cost.
Полный разбор
Prompt - часть production code. Его нужно версионировать вместе с model version, tools, schemas и retrieval settings. Для проверки собирают gold set: реальные пользовательские сценарии, edge cases, attack prompts, expected behavior и rubric.
Автоматическая оценка может включать exact checks для JSON/schema, LLM-as-judge по rubric, similarity, groundedness, tool-call correctness, latency и cost. Для важных сценариев нужен human review. После инцидента плохой кейс добавляется в regression set.
Релиз делается постепенно: offline eval, shadow/canary, A/B или percentage rollout. При деградации нужны traces, чтобы понять: виноват prompt, model version, retrieval, tool, schema или данные.
Теория
Prompt changes должны проходить такой же regression mindset, как изменения кода.
Типичные ошибки
- Править prompt прямо в production без версии.
- Тестировать только happy path.
- Не сохранять traces и inputs для плохих ответов.