W8A8, W4A16 и схемы quantization

Чем отличаются схемы quantization для LLM inference и какие trade-off нужно назвать?

Ответить самому

Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.

Загрузка

Quantization уменьшает память и bandwidth. W8A8 квантует веса и активации в 8 бит, W4A16 оставляет активации шире, но сильнее сжимает веса.

Полный разбор

В LLM inference quantization обычно нужна для уменьшения memory footprint, bandwidth и иногда latency. W8A8 означает 8-bit weights и 8-bit activations; это может ускорять матричные операции при hardware support, но требует аккуратной calibration. W4A16 сильнее сжимает веса, а активации оставляет в более точном формате. Trade-off: perplexity/quality loss, outlier channels, calibration dataset, kernel support, dequant overhead, KV cache формат и совместимость с batching. Для интервью важно говорить измерениями: качество на eval, memory per token/model, throughput и p95 latency.