Сколько draft tokens брать в speculative decoding

Как выбирать число draft tokens в speculative decoding и почему больше не всегда лучше?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Число draft tokens выбирается по acceptance rate, latency target и стоимости draft/target моделей. Слишком длинный draft часто дает больше rejected tokens и лишний compute.

Полный разбор

Speculative decoding ускоряет decode, если draft model быстро предлагает несколько токенов, а target model принимает значительную часть. Количество draft tokens - trade-off: длиннее блок дает больше потенциальной экономии, но acceptance probability обычно падает с глубиной последовательности. Практически измеряют tokens/sec, acceptance rate by position, p50/p95 latency и качество. Оптимум зависит от близости draft и target distributions, prompt type, batch size и стоимости проверки target model. Поэтому параметр выбирают экспериментально, а не фиксируют универсально.