Назад к подготовке

Temperature, top-k, top-p и max length в LLM generation

Объясните основные параметры генерации LLM: temperature, max length, top-k и top-p. Как они влияют на ответы support bot?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Temperature управляет остротой распределения, top-k/top-p ограничивают множество кандидатов, max length ограничивает длину ответа.

Полный разбор

Temperature меняет распределение вероятностей следующего токена: низкая temperature делает ответы более детерминированными, высокая повышает разнообразие и риск странных формулировок. Для support bot обычно нужна низкая или умеренная temperature.

Top-k оставляет только k наиболее вероятных токенов. Top-p оставляет минимальное множество токенов, суммарная вероятность которого достигает p. Эти методы ограничивают sampling tail.

Max length ограничивает число генерируемых токенов. Для support bot это защита от слишком длинных ответов и runaway generation, но слишком маленький лимит может обрезать важную инструкцию.

Типичные ошибки

  • Думать, что высокая temperature улучшает factual accuracy.
  • Путать top-k и top-p.
  • Не связывать параметры с продуктовым риском.

Как отвечать на собеседовании

  • Для support bot скажи low temperature.
  • Объясни top-p как nucleus sampling.