Почему acceptance ratio может быть высоким
За счет чего speculative decoding сохраняет высокий acceptance ratio при нескольких draft tokens?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Acceptance высокий, когда draft model хорошо аппроксимирует target distribution на данном домене и ранних позициях блока, особенно для предсказуемого текста.
Полный разбор
Target model принимает draft tokens, если они совместимы с ее распределением. Acceptance ratio растет, когда draft model обучена на похожем домене, имеет близкую tokenizer/model family, получает тот же context и генерирует короткие предсказуемые continuation.
Даже при хорошем среднем acceptance нужно смотреть распределение по позициям: первый draft token может приниматься часто, а дальние токены хуже. Поэтому throughput оценивается вместе с wasted draft compute, target verification cost и качеством ответа.