Обязательно

Training Stability and Checkpointing

NaNs, loss spikes, mixed precision instability, sharded checkpoints, resume semantics and reproducibility for long training runs.

Время изучения: 30 мин

Training Stability and Checkpointing

Operational layer of long distributed runs: NaNs, loss spikes, sharded checkpoints, resume semantics, RNG/scaler state, observability and recovery.

Что должен уметь кандидат

  • Отличать activation checkpointing от training checkpointing.
  • Понимать what must be saved: model, optimizer, scheduler, scaler, RNG, dataloader/progress and framework config.
  • Составлять recovery checklist for FSDP/ZeRO or multi-node failures.
  • Диагностировать divergence after resume without assuming one universal cause.

Что спрашивают на собеседовании

  • Что должно попасть в checkpoint?
  • Почему loss diverged after resume?
  • Как ловить NaN только на одном rank?
  • Какие метрики логировать для долгого training run?

Практическая задача

Реализовать kill-and-resume test для sharded training and compare loss curve before/after resume.

Source-grounded правило

Checkpoint portability and resume semantics are version/config specific; avoid claiming universal compatibility.