Назад к подготовке

Почему acceptance ratio может быть высоким

За счет чего speculative decoding сохраняет высокий acceptance ratio при нескольких draft tokens?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Короткий ответ

Acceptance высокий, когда draft model хорошо аппроксимирует target distribution на данном домене и ранних позициях блока, особенно для предсказуемого текста.

Полный разбор

Target model принимает draft tokens, если они совместимы с ее распределением. Acceptance ratio растет, когда draft model обучена на похожем домене, имеет близкую tokenizer/model family, получает тот же context и генерирует короткие предсказуемые continuation.

Даже при хорошем среднем acceptance нужно смотреть распределение по позициям: первый draft token может приниматься часто, а дальние токены хуже. Поэтому throughput оценивается вместе с wasted draft compute, target verification cost и качеством ответа.