Обязательно

FSDP, DeepSpeed ZeRO and Sharding

Why optimizer states dominate memory, how FSDP/ZeRO shard params, gradients and optimizer state, and when sharding pays off.

Время изучения: 34 мин

FSDP, DeepSpeed ZeRO and Sharding

Шардирование model states вместо полной репликации: optimizer states, gradients and parameters in PyTorch FSDP and DeepSpeed ZeRO.

Что должен уметь кандидат

  • Сравнить DDP, ZeRO-1/2/3 and FSDP by what is replicated or sharded.
  • Понимать memory/communication trade-off: lower memory often means more communication and orchestration complexity.
  • Выбирать FSDP/ZeRO when model states or activations do not fit in GPU memory.
  • Понимать risks: wrapping policy, offload, checkpoint format and version compatibility.

Что спрашивают на собеседовании

  • Чем FSDP похож на ZeRO-3?
  • Почему ZeRO-3 может быть медленнее DDP на небольшой модели?
  • Что может сломаться при неправильном auto-wrap policy?
  • Какие states занимают память при Adam training?

Практическая задача

На toy Transformer сравнить DDP vs FSDP или DeepSpeed ZeRO-2/3 по peak memory, step time, checkpoint size and resume behavior.

Source-grounded правило

Численные claims about memory savings or scaling must be tied to specific FSDP/ZeRO docs, papers or engineering reports, not generalized.