Варианты speculative decoding

Какие варианты speculative decoding встречаются в LLM serving и чем они отличаются на уровне реализации?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Draft может быть отдельной малой моделью, early-exit/head внутри target model или feature-based predictor. Различаются память, integration cost и acceptance behavior.

Полный разбор

Классический вариант использует отдельную draft model, которая генерирует candidates, а target model параллельно проверяет блок. Другие варианты используют early-exit heads, n-gram/cache predictors или специализированные методы вроде EAGLE, где draft строится не просто малой языковой моделью. Сравниваются три вещи: стоимость draft, стоимость target verification и acceptance. Отдельная draft model проще концептуально, но требует дополнительной памяти и синхронизации. Внутренние варианты могут быть эффективнее, но сильнее завязаны на архитектуру и runtime.