ВопросHardllm-servingРеальный собес

Что такое speculative decoding и EAGLE

Что такое speculative decoding для LLM inference, как он ускоряет decode, и что за идея у EAGLE-подобных методов?

Короткий ответ

Speculative decoding генерирует несколько draft tokens дешевой моделью, а большая модель верифицирует их пачкой. Ускорение есть, если acceptance rate высокий. EAGLE генерирует draft не обычной внешней LM, а через prediction будущих feature/hidden states.

Полный разбор

Autoregressive decode медленный, потому что большая модель обычно добавляет один токен за forward pass. Speculative decoding добавляет draft model: маленькая модель быстро предлагает несколько следующих токенов, а target model проверяет их за один батчевый forward pass. Принятые токены засчитываются сразу, первый ошибочный отклоняется, дальше процесс повторяется.

Ускорение зависит от того, насколько часто draft угадывает target distribution, от стоимости draft model и от overhead верификации. Метод хорошо работает, когда draft близок к target или задача имеет предсказуемое продолжение.

EAGLE-подобная идея: строить draft через предсказание будущих hidden states/features target model, а не только через отдельную маленькую модель, чтобы получить более качественные speculative candidates при меньшем overhead.

Теория

Speculative decoding сохраняет распределение target model при корректной acceptance scheme, но меняет вычислительный граф decode.

Типичные ошибки

Сказать, что маленькая модель просто заменяет большую.
Не объяснить verification target model.
Игнорировать acceptance rate как главный фактор ускорения.

Как отвечать на собеседовании

Опиши pipeline: draft -> verify -> accept/reject.
Скажи, когда метод не ускорит: плохой draft или большой overhead.