Сколько draft tokens брать в speculative decoding
Как выбирать число draft tokens в speculative decoding и почему больше не всегда лучше?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Число draft tokens выбирается по acceptance rate, latency target и стоимости draft/target моделей. Слишком длинный draft часто дает больше rejected tokens и лишний compute.
Полный разбор
Speculative decoding ускоряет decode, если draft model быстро предлагает несколько токенов, а target model принимает значительную часть. Количество draft tokens - trade-off: длиннее блок дает больше потенциальной экономии, но acceptance probability обычно падает с глубиной последовательности.
Практически измеряют tokens/sec, acceptance rate by position, p50/p95 latency и качество. Оптимум зависит от близости draft и target distributions, prompt type, batch size и стоимости проверки target model. Поэтому параметр выбирают экспериментально, а не фиксируют универсально.