Назад к подготовке

Тестирование и версионирование prompt-ов

Как тестировать и выкатывать prompt changes в LLM-продукте?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Нужны versioned prompts, gold set сценариев, traces, автоматические и human metrics, regression tests по плохим кейсам и rollout с мониторингом качества, latency и cost.

Полный разбор

Prompt - часть production code. Его нужно версионировать вместе с model version, tools, schemas и retrieval settings. Для проверки собирают gold set: реальные пользовательские сценарии, edge cases, attack prompts, expected behavior и rubric.

Автоматическая оценка может включать exact checks для JSON/schema, LLM-as-judge по rubric, similarity, groundedness, tool-call correctness, latency и cost. Для важных сценариев нужен human review. После инцидента плохой кейс добавляется в regression set.

Релиз делается постепенно: offline eval, shadow/canary, A/B или percentage rollout. При деградации нужны traces, чтобы понять: виноват prompt, model version, retrieval, tool, schema или данные.

Теория

Prompt changes должны проходить такой же regression mindset, как изменения кода.

Типичные ошибки

  • Править prompt прямо в production без версии.
  • Тестировать только happy path.
  • Не сохранять traces и inputs для плохих ответов.