W8A8, W4A16 и схемы quantization
Чем отличаются схемы quantization для LLM inference и какие trade-off нужно назвать?
Ответить самому
Сначала сформулируйте ответ как на собеседовании, затем откройте разбор и оцените себя.
Короткий ответ
Quantization уменьшает память и bandwidth. W8A8 квантует веса и активации в 8 бит, W4A16 оставляет активации шире, но сильнее сжимает веса.
Полный разбор
В LLM inference quantization обычно нужна для уменьшения memory footprint, bandwidth и иногда latency. W8A8 означает 8-bit weights и 8-bit activations; это может ускорять матричные операции при hardware support, но требует аккуратной calibration. W4A16 сильнее сжимает веса, а активации оставляет в более точном формате.
Trade-off: perplexity/quality loss, outlier channels, calibration dataset, kernel support, dequant overhead, KV cache формат и совместимость с batching. Для интервью важно говорить измерениями: качество на eval, memory per token/model, throughput и p95 latency.