Стабильность обучения и оптимизаторы

Logit softcapping, z-loss, AdamW, Muon, MuonClip, LR schedules, batch size scaling.

Training Stability и Optimizers — как не уронить тренировку на миллиарде параметров

Стабильность тренировки — не про экзотические трюки. Это про правильные defaults, без которых твои $100M на GPU улетят в NaN. Loss spikes, расходящиеся логиты, gradient explosions — рутинная боль при масштабе. Тут разбираем: logit softcapping, z-loss, QK-norm, AdamW vs Muon, MuonClip и типичные причины, почему тренировка падает.

Logit Softcapping

Logit softcapping — это как ограничитель оборотов в двигателе. Логиты начинают улетать в космос? tanh мягко прижимает их обратно к земле, в диапазон (−c, +c). В отличие от hard clipping (где градиент просто умирает на границе), softcapping гладкий и дифференцируемый. Gemma 2 ставит его на attention logits (cap=50) и LM head (cap=30). HuggingFace выбрали его вместо z-loss.

Logit softcapping: значения плавно сжимаются в (-c, +c). Gemma 2: c=50 для attention, c=30 для LM head

Подводный камень: softcapping несовместим с Flash Attention / SDPA при тренировке — эти fused kernels ожидают стандартный attention. Придётся юзать attn_implementation="eager". Да, медленнее. Зато не взрывается. На инференсе SDPA работает с минимальной потерей quality.

z-loss и QK-norm

z-loss штрафует модель за большие логиты через log²(Z) от softmax denominator. Звучит полезно, но HuggingFace протестировали на 1B — ноль эффекта на loss и evals. Не стоит overhead. QK-norm (LayerNorm на Q,K) стабилизирует attention logits, но внимание: исследователи RNoPE показали, что нормализация вредит long-context — убирает magnitude info и де-акцентирует релевантные токены. Лечим одно, ломаем другое.

z-loss: Z — softmax denominator. Штрафует модель за большой масштаб логитов

AdamW — всё ещё дефолт

AdamW — как Toyota Camry. Ничего модного, но работает и не ломается. Несмотря на 10+ лет, он всё ещё дефолт. Адаптивные learning rates на каждый параметр через moving averages моментов градиента + weight decay. Гиперпараметры окаменели: λ=0.1, β₁=0.9, β₂=0.95, ε=10⁻⁸. Все frontier модели плюс-минус на этих числах.

AdamW: weight decay (1-αλ) + adaptive step size. m̂ и v̂ — bias-corrected moments

import torch

def logit_softcap(logits: torch.Tensor, cap: float = 30.0) -> torch.Tensor:
    ""Gemma 2-style logit softcapping.
        (-cap, +cap)  tanh.
    ""
    return cap * torch.tanh(logits / cap)

# Пример: логит 100.0 → 30.0 * tanh(100/30) ≈ 30.0 (почти cap)
# Логит 15.0 → 30.0 * tanh(15/30) ≈ 30.0 * 0.46 ≈ 13.9 (мягкое сжатие)
# Логит 5.0 → 30.0 * tanh(5/30) ≈ 30.0 * 0.165 ≈ 4.95 (почти без изменений)

# В Gemma 2:
# - attention logits: cap=50 (до softmax)
# - LM head logits: cap=30 (перед cross-entropy)
# ⚠️ Несовместимо с Flash Attention при тренировке!

Muon — матричный оптимизатор

Muon — свежий претендент на трон. В отличие от AdamW, который работает поэлементно, Muon мыслит матрицами целиком. Newton-Schulz итерация аппроксимирует matrix sign function, нормализуя сингулярные значения. Особенно эффективен при большом batch size. Arcee Trinity юзает гибрид: Muon для hidden layers, AdamW для embedding/output. Каждому слою — свой оптимизатор. Звучит как overkill? Работает.

Newton-Schulz5: итеративно применяя f, аппроксимируем sign function — нормализует сингулярные значения

MuonClip — стабилизация от Kimi K2

MuonClip — ответ Kimi K2 на exploding attention logits при масштабе. Идея: для каждой attention head считаем максимальный логит. Если он превысил порог τ — мягко масштабируем query и key weights вниз. Per-head clipping: γ_h = min(1, τ/S_max^h) — не трогаем головы, которые ведут себя нормально. С MLA сложнее (K проецируются из латента), но принцип тот же.

Максимальный attention logit для головы h — метрика для срабатывания MuonClip

MuonClip: per-head clipping attention logits для стабилизации тренировки при масштабе — MuonClip (Kimi K2): мониторинг максимальных attention logits по головам и мягкое масштабирование Q/K weights. Источник: djdumpling.github.io — Frontier Model Training Methodologies

Learning Rate Schedules

Сравнение трёх LR schedules: cosine, WSD и multi-step — Cosine — плавная кривая; WSD — warmup→stable→linear decay; Multi-step — дискретные drops

Cosine annealing — классика, но inflexible: period должен точно совпадать с длительностью тренировки
WSD (Warmup-Stable-Decay) — 10-20% на decay. SmolLM3: 2e-4 lr. Kimi K2: 10T tokens @ 2e-4, затем 5.5T cosine decay до 2e-5
Multi-step — discrete drops (80/10/10 или 70/15/15). DeepSeek-V3: cosine между drops + constant phase
WSD особенно удобен для ablations: можно перетренировать только end portion, не перезапуская с начала

Batch Size и Critical Batch Size

Critical batch size растёт по ходу тренировки: в начале модель учится жадно (маленький batch ок), потом стабилизируется и хочет больший batch для эффективности. При увеличении batch в k раз — lr масштабируй на √k, чтобы дисперсия обновлений не улетела:

Дисперсия обновления: η² × Σ/B. При B×k нужно η×√k для сохранения Var(Δw)

Common Training Failures

High learning rate — самая частая причина loss spikes
Bad data batches — специфические комбинации данных и parameter states вызывают spikes
Poor initialization — OLMo2: N(0, 0.02) стабильнее scaled initialization
Data filtering — OLMo2: удаление документов с 32+ повторениями 1-13 token spans значительно снижает частоту spikes
Precision — fp16 опасен для больших моделей, bf16 — стандарт
Imbalanced minibatches при sequence packing — gradient variance дестабилизирует тренировку

🎯 На собеседовании

Junior

• Что такое Adam и чем он лучше SGD для трансформеров? Adam — адаптивный оптимизатор с momentum (moving average градиентов) и adaptive lr (moving average квадратов градиентов). SGD с одним lr для всех параметров плохо работает для трансформеров, где разные слои требуют разных шагов. • Зачем нужен learning rate warmup? В начале тренировки параметры далеки от оптимума, статистики оптимизатора не накоплены. Большой lr = нестабильность. Warmup: lr линейно растёт от 0 до target за первые N шагов. • Что такое weight decay? Регуляризация: на каждом шаге веса умножаются на (1 - λ), стягиваясь к нулю. Предотвращает переобучение. В AdamW decay отделён от градиентного шага (decoupled).

Middle

• AdamW vs Adam — в чём разница? В Adam weight decay вплетён в gradient update (L2 regularization). В AdamW decay decoupled — применяется отдельно к весам. Для трансформеров AdamW стабильнее и даёт лучшую генерализацию. • Cosine vs WSD vs multi-step schedule — когда что? Cosine — классика, но inflexible (period фиксирован). WSD (Warmup-Stable-Decay) — гибче для ablations (можно перетренировать только tail). Multi-step — discrete drops, удобно для staged training. • Gradient accumulation vs larger batch — в чём разница? Gradient accumulation: N forward-backward passes, потом один optimizer step. Эффективно увеличивает batch size без дополнительной GPU памяти. Результат математически идентичен большему batch. • Что такое gradient clipping и зачем? Ограничение нормы градиента: если ||g|| > max_norm, масштабируем g. Предотвращает exploding gradients (NaN в loss). Критично для RNN и трансформеров. Типичный max_norm: 1.0.

Senior

• Что такое loss spikes и как с ними бороться? Резкие скачки loss во время тренировки. Причины: bad data batches, high lr, fp16 overflow, плохая инициализация. Решения: logit softcapping (Gemma), data filtering (OLMo2), MuonClip (Kimi K2), bf16 вместо fp16. • bf16 vs fp16 — в чём трейдоффы? fp16: больший dynamic range но меньшая precision → overflow при больших моделях. bf16: тот же range что fp32 (8 exponent bits) но меньше precision → стабильнее для training. bf16 — стандарт для LLM. • Что такое mu-Transfer? Метод переноса гиперпараметров с маленькой модели на большую. Обучаешь proxy-модель, находишь оптимальные lr/batch size/init, масштабируешь по формулам. Экономит compute на hyperparameter search для дорогих моделей. • Muon vs AdamW — когда оправдан Muon? Muon работает с матрицами целиком (Newton-Schulz итерация). Выигрывает для hidden layers при большом batch size. Требует all-to-all collectives → сложнее в distributed setup. Гибридный подход: Muon для hidden, AdamW для embedding/output.

💡 Takeaway

Logit softcapping (Gemma-style) — предпочтительный метод стабилизации. AdamW — дефолт, Muon выигрывает для hidden layers при наличии инфраструктуры (all-to-all collectives). WSD schedule — удобнее cosine для ablations и production. MuonClip решает exploding logits при масштабе. Большинство «загадочных» падений — проблемы данных или конфигурации, не алгоритмов.

Материалы

Gemma 2 — Logit Softcapping

Kimi K2 — MuonClip Optimizer

WSD: Warmup-Stable-Decay Schedule

Muon Optimizer Explained

Позиционные кодирования и длинный контекст

Продвинутый post-training

Назад к программе