Назад к подготовке

ВопросСредняяllm-inferenceТехническое собеседование · Solmate / TAVAX

Temperature, top-k, top-p и max length в LLM generation

Объясните основные параметры генерации LLM: temperature, max length, top-k и top-p. Как они влияют на ответы support bot?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Temperature управляет остротой распределения, top-k/top-p ограничивают множество кандидатов, max length ограничивает длину ответа.

Полный разбор

Temperature меняет распределение вероятностей следующего токена: низкая temperature делает ответы более детерминированными, высокая повышает разнообразие и риск странных формулировок. Для support bot обычно нужна низкая или умеренная temperature. Top-k оставляет только k наиболее вероятных токенов. Top-p оставляет минимальное множество токенов, суммарная вероятность которого достигает p. Эти методы ограничивают sampling tail. Max length ограничивает число генерируемых токенов. Для support bot это защита от слишком длинных ответов и runaway generation, но слишком маленький лимит может обрезать важную инструкцию.

Типичные ошибки

Думать, что высокая temperature улучшает factual accuracy.
Путать top-k и top-p.
Не связывать параметры с продуктовым риском.

Как отвечать на собеседовании

Для support bot скажи low temperature.
Объясни top-p как nucleus sampling.