Варианты speculative decoding
Какие варианты speculative decoding встречаются в LLM serving и чем они отличаются на уровне реализации?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Draft может быть отдельной малой моделью, early-exit/head внутри target model или feature-based predictor. Различаются память, integration cost и acceptance behavior.
Полный разбор
Классический вариант использует отдельную draft model, которая генерирует candidates, а target model параллельно проверяет блок. Другие варианты используют early-exit heads, n-gram/cache predictors или специализированные методы вроде EAGLE, где draft строится не просто малой языковой моделью.
Сравниваются три вещи: стоимость draft, стоимость target verification и acceptance. Отдельная draft model проще концептуально, но требует дополнительной памяти и синхронизации. Внутренние варианты могут быть эффективнее, но сильнее завязаны на архитектуру и runtime.