Temperature, top-k, top-p и max length в LLM generation
Объясните основные параметры генерации LLM: temperature, max length, top-k и top-p. Как они влияют на ответы support bot?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Temperature управляет остротой распределения, top-k/top-p ограничивают множество кандидатов, max length ограничивает длину ответа.
Полный разбор
Temperature меняет распределение вероятностей следующего токена: низкая temperature делает ответы более детерминированными, высокая повышает разнообразие и риск странных формулировок. Для support bot обычно нужна низкая или умеренная temperature.
Top-k оставляет только k наиболее вероятных токенов. Top-p оставляет минимальное множество токенов, суммарная вероятность которого достигает p. Эти методы ограничивают sampling tail.
Max length ограничивает число генерируемых токенов. Для support bot это защита от слишком длинных ответов и runaway generation, но слишком маленький лимит может обрезать важную инструкцию.
Типичные ошибки
- Думать, что высокая temperature улучшает factual accuracy.
- Путать top-k и top-p.
- Не связывать параметры с продуктовым риском.
Как отвечать на собеседовании
- Для support bot скажи low temperature.
- Объясни top-p как nucleus sampling.