Training Stability and Checkpointing
Operational layer of long distributed runs: NaNs, loss spikes, sharded checkpoints, resume semantics, RNG/scaler state, observability and recovery.
Что должен уметь кандидат
- Отличать activation checkpointing от training checkpointing.
- Понимать what must be saved: model, optimizer, scheduler, scaler, RNG, dataloader/progress and framework config.
- Составлять recovery checklist for FSDP/ZeRO or multi-node failures.
- Диагностировать divergence after resume without assuming one universal cause.
Что спрашивают на собеседовании
- Что должно попасть в checkpoint?
- Почему loss diverged after resume?
- Как ловить NaN только на одном rank?
- Какие метрики логировать для долгого training run?
Практическая задача
Реализовать kill-and-resume test для sharded training and compare loss curve before/after resume.
Source-grounded правило
Checkpoint portability and resume semantics are version/config specific; avoid claiming universal compatibility.