NLP и LLM

Как устроены LLM изнутри: decoder-only архитектура, KV-cache для быстрого инференса, квантизация (GGUF, GPTQ, AWQ) для запуска на consumer GPU. Фокус на практике: запустить, оценить, выбрать модель.

4 ресурсов

Дообучение LLM

LoRA, QLoRA, PEFT, инструкционное обучение, RLHF/DPO.

3 ресурсов

Промпт-инжиниринг

Zero/few-shot, chain-of-thought, structured output, system prompts.

2 ресурсов

Оценка LLM

Бенчмарки, human eval, MMLU/HumanEval, оценка галлюцинаций, red-teaming.

2 ресурсов

🏗️ Обучение LLM — основы

Training Pipeline

Как обучают LLM: pre-training → mid-training → SFT → RLHF. Общая картина процесса.

3 ресурсов

SFT и дообучение

Supervised Fine-Tuning: chat templates, instruction datasets, sequence packing, distillation.

2 ресурсов

RLHF и DPO

Alignment через RLHF, DPO, RLVR. Как модель учится быть полезной и безопасной.

2 ресурсов

Scaling Laws и токенизация

Chinchilla, overtraining, BPE, vocab size trade-offs, LR schedules.

2 ресурсов

⚡ Frontier LLM Training

Современные архитектуры LLM

GQA/MLA, SwiGLU, gated attention, embedding sharing, RMSNorm — как устроены frontier модели.

2 ресурсов

Mixture of Experts (MoE)

Sparse-модели: routing, load balancing, shared experts. DeepSeek-V3, Kimi K2.

2 ресурсов

Позиционные кодирования и длинный контекст

RoPE, YaRN, RNoPE, document masking. Как модели масштабируются от 4K до 128K+ токенов.

2 ресурсов

Стабильность обучения и оптимизаторы

Logit softcapping, z-loss, AdamW, Muon, MuonClip, LR schedules, batch size scaling.

2 ресурсов

Продвинутый post-training

GRPO, RLVR, KTO/ORPO/APO, on-policy distillation, DeepSeek-R1 pipeline.

2 ресурсов

Data Curation и Multi-stage Training

опц.

Data mixtures, ablation, synthetic data, multi-stage обучение. SmolLM3, Hermes 4, Kimi K2.

2 ресурсов

Distributed Training (Multi-GPU)

Data Parallelism, ZeRO, FSDP, Tensor/Pipeline Parallelism, 3D Parallelism. Как обучают модели на сотнях GPU.

3 ресурсов

🚀 Агенты и продакшн

RAG

Retrieval-Augmented Generation: чанкинг, эмбеддинги, реранкинг, гибридный поиск.

4 ресурсов

Векторные БД

FAISS, Qdrant, Weaviate, Milvus — индексы HNSW/IVF, выбор под задачу.

2 ресурсов

Оценка RAG-систем (RAGAS)

Метрики качества RAG: faithfulness, context precision/recall, answer relevancy. Фреймворк RAGAS для автоматической оценки.

4 ресурсов

LLM-агенты

ReAct, function calling, LangChain/LlamaIndex/CrewAI, оркестрация, memory.

3 ресурсов

NLP System Design

опц.

Проектирование production NLP-систем: чат-бот, поиск, модерация.

2 ресурсов

Подготовка к собеседованию

Проверьте свои знания NLP — от токенизации до RAG и LLM.

BPE итеративно объединяет самые частые пары символов, WordPiece выбирает пару, максимизирующую правдоподобие (likelihood) корпуса. SentencePiece — не отдельный алгоритм, а библиотека, которая работает на сыром тексте без предварительной токенизации и реализует BPE или Unigram внутри. На практике разница невелика: GPT использует BPE, BERT — WordPiece.

IDF (обратная частота документа, inverse document frequency) = log(N / df), где df — число документов, содержащих слово. Она штрафует частые слова вроде «и», «в», «the», которые встречаются почти везде и не несут смысла. Без IDF модель TF-IDF была бы просто подсчётом частот, где стоп-слова доминируют.

CBOW предсказывает центральное слово по контексту (окружающим словам), Skip-gram — наоборот, предсказывает контекст по центральному слову. CBOW быстрее обучается и лучше работает на частых словах, Skip-gram лучше справляется с редкими словами и на маленьких корпусах, потому что создаёт больше обучающих пар из каждого окна.

Косинусная близость (cosine similarity) измеряет угол между векторами, игнорируя их длину. Два документа на одну тему, но разной длины, будут иметь близкий косинус, но далёкое евклидово расстояние (длинный документ = длинный вектор). Косинусная близость нормализует по длине автоматически, что делает её устойчивой к разнице в масштабе.

При обратном распространении через T шагов градиент умножается на матрицу весов T раз — если её спектральный радиус < 1, градиент экспоненциально затухает. LSTM решает проблему через состояние ячейки (cell state) и механизм вентилей (gates): вентиль забывания (forget gate) может пропускать градиент почти без изменений (множитель близок к 1), создавая «шоссе» для градиента через длинные последовательности.

Аналогия из информационного поиска (information retrieval): Query — запрос (что ищем), Key — ключи (по чему ищем), Value — значения (что возвращаем). Вес внимания = softmax(Q·Kᵀ/√d) показывает, насколько каждый Key релевантен Query. Итоговый выход — взвешенная сумма Value по этим весам. Разделение на Q/K/V даёт модели гибкость: то, «по чему искать» и «что вернуть» — разные проекции.

Каждый токен вычисляет вес внимания с каждым другим токеном — это матричное умножение Q·Kᵀ размера n×n, где n — длина последовательности. Ускоряют через разреженное внимание (sparse attention — каждый токен смотрит на фиксированное окно + несколько глобальных токенов), линейное внимание (linear attention — аппроксимация через kernel trick) или FlashAttention (оптимизация на уровне GPU-памяти без изменения результата).

Самовнимание (self-attention) инвариантно к порядку токенов — без позиционного кодирования «кот сел на мат» и «мат сел на кот» дают одинаковый результат. Синусоидальное кодирование позволяет модели легко вычислять относительные позиции (сдвиг = линейная трансформация синусоид). На практике обучаемые (learnable) позиции работают не хуже, а в современных моделях используют RoPE (поворотные позиционные эмбеддинги, Rotary Position Embeddings).

Маскированное языковое моделирование (Masked Language Modeling) — задача предсказания замаскированных токенов. 15% токенов выбираются, из них 80% заменяются на [MASK], 10% — на случайный токен, 10% остаются без изменений. Если бы всегда ставили [MASK], модель при дообучении (fine-tuning) никогда не видела бы [MASK] — возникает расхождение (mismatch). Случайная замена и сохранение оригинала заставляют модель учитывать контекст для любого токена.

BERT видит контекст с обеих сторон — это идеально для задач понимания: классификация, извлечение сущностей (NER), поиск. GPT видит только левый контекст — это нужно для генерации текста, где нельзя «подсматривать вперёд». На практике модели-декодеры (GPT-4, LLaMA) доминируют благодаря масштабированию и универсальности через промптинг, а модели-кодировщики (BERT, DeBERTa) остаются стандартом для эмбеддингов и ранжирования.

Предобученные веса уже содержат полезные языковые представления. Большой learning rate разрушит их за несколько шагов — это катастрофическое забывание (catastrophic forgetting). Типичный LR для дообучения: 2e-5 — 5e-5 (в 100-1000 раз меньше, чем при предобучении). Часто используют дискриминативное дообучение (discriminative fine-tuning): нижние слои (общие знания) обучаются ещё медленнее, верхние (задачно-специфичные) — быстрее.

LoRA замораживает все оригинальные веса и добавляет две маленькие матрицы A (d×r) и B (r×d) рядом с каждым линейным слоем, где r << d (обычно 4-64). Вместо обновления матрицы W (d×d) обновляются только A и B, что сокращает число обучаемых параметров в 100-1000 раз. Меньше параметров = меньше состояний оптимизатора = меньше GPU-памяти.

Перплексия (perplexity) = 2^(кросс-энтропия) — среднее число вариантов, между которыми модель «сомневается» на каждом токене. PPL = 10 значит, что модель в среднем выбирает из 10 равновероятных вариантов. Чем ниже — тем лучше. Но перплексия зависит от словаря и токенизации, поэтому сравнивать PPL разных моделей корректно только при одинаковом токенизаторе.

LLM обучены генерировать правдоподобный текст, а не фактически корректный — они оптимизируют правдоподобие (likelihood), а не достоверность. Основные методы борьбы: RAG (подаём релевантные документы как контекст), дообучение на фактологических данных, цепочка рассуждений (chain-of-thought — вынуждает модель «рассуждать»), самосогласованность (self-consistency — генерируем несколько ответов и берём консенсус). Полностью проблему пока не решили.

Знания LLM заморожены на момент обучения, могут быть неточны и не покрывают приватные данные. RAG лучше дообучения, когда: данные часто обновляются (документация, новости), нужна атрибуция (ссылка на источник), данных мало для дообучения, или нужен контроль над тем, что модель «видит». Дообучение лучше, когда нужно изменить стиль или формат ответов модели.

Слишком большие чанки = шум (нерелевантная информация разбавляет контекст), слишком маленькие = потеря контекста (предложение без абзаца теряет смысл). Типичные стратегии: фиксированный размер с перекрытием (200-500 токенов, 10-20% overlap), семантическое разбиение (по заголовкам/абзацам), рекурсивный сплит. Качество разбиения напрямую определяет качество поиска — мусор на входе = мусор на выходе.

Цепочка рассуждений (chain-of-thought) заставляет модель генерировать промежуточные шаги, а не сразу выдавать ответ. Каждый сгенерированный токен становится частью контекста для следующего — модель буквально «думает вслух». Это особенно помогает в задачах с арифметикой, логикой и многошаговыми рассуждениями, где правильный ответ невозможно получить «в один ход».

Температура (temperature) масштабирует логиты перед softmax: softmax(logits / T). При T → 0 распределение вырождается в argmax (жадная генерация), при T → ∞ — в равномерное распределение. T = 0.2-0.5 — для фактологических задач (меньше вариативность), T = 0.7-1.0 — для креативных задач. Температура не добавляет «знаний» — она только перераспределяет вероятности между уже известными вариантами.

Входной текст токенизируется, токены превращаются в эмбеддинги, к которым прибавляется позиционное кодирование (positional encoding). В кодировщике (encoder) каждый слой содержит многоголовое самовнимание (multi-head self-attention) и полносвязную сеть (feed-forward), оба с остаточными связями (residual connections) и нормализацией (layer norm). Декодер добавляет маскированное самовнимание (чтобы не подглядывать в будущие токены) и перекрёстное внимание (cross-attention) к выходу кодировщика. Финальный линейный слой + softmax превращает выход декодера в вероятности над словарём.

Обычный BERT выдаёт эмбеддинг для каждого токена, а для сравнения двух текстов требует пропустить их вместе через модель — это O(n²) для N текстов. Sentence-BERT добавляет пулинг (среднее по токенам или [CLS]) и обучает сиамскую сеть на парах через контрастивную или триплетную функцию потерь. На выходе — один вектор на предложение, который можно предвычислить и сравнивать через косинусную близость (cosine similarity) за O(1), что делает поиск по миллионам текстов практичным.

Sentence-BERT обучался на ограниченных парах (NLI, STS), что давало слабые результаты на доменных задачах. E5 и BGE обучаются на сотнях миллионов пар «запрос-документ» из реального веба через контрастивное обучение (contrastive learning), часто с добавлением инструкций (instruction-tuned). Они значительно лучше на задачах поиска и кластеризации, поддерживают длинные тексты и мультиязычность. На бенчмарке MTEB эти модели стабильно обходят классический Sentence-BERT.

Стемминг обрезает слово по правилам до «основы» (бежал → бежа, running → run) — быстро, но результат часто не является настоящим словом. Лемматизация приводит к словарной форме с учётом морфологии и части речи (бежал → бежать, better → good) — точнее, но требует словарь и медленнее. Стемминг достаточен для информационного поиска, где важна скорость. Лемматизация лучше для задач, где важна семантика: классификация, извлечение знаний.

При извлечении признаков (feature extraction) веса модели заморожены, обучается только классификатор поверх — быстро, дёшево, подходит при малом количестве данных и риске переобучения. При дообучении (fine-tuning) обновляются все или часть весов модели — даёт лучшее качество, когда данных достаточно и домен отличается от предобучения. На практике часто используют компромисс: замораживают нижние слои и дообучают верхние, или применяют LoRA для эффективного дообучения.

Основные подходы: продолжить предобучение (continued pretraining) на доменных текстах без разметки — модель учит специфичную лексику и паттерны. Затем дообучить (fine-tune) на размеченных доменных данных. Если размеченных данных мало, помогает промежуточное обучение (intermediate training) на близкой задаче или промптинг с доменными примерами (few-shot). Для эмбеддингов — контрастивное обучение на доменных парах «вопрос-ответ» или «запрос-документ».

LLM-агент — это LLM, которая может вызывать внешние инструменты (поиск, калькулятор, API, базы данных) и итеративно решать задачу. ReAct (Reasoning + Acting) — паттерн, где модель чередует рассуждение и действие: «думаю → вызываю инструмент → наблюдаю результат → думаю снова». LangChain предоставляет абстракции для цепочек вызовов, а LangGraph добавляет граф состояний для сложных разветвлённых сценариев. Оркестрация нужна, потому что одного вызова LLM часто недостаточно — реальные задачи требуют нескольких шагов с обратной связью.

Автоматические бенчмарки (MMLU, HumanEval, GSM8K) измеряют конкретные навыки: знания, код, математику — но модели могут быть натренированы на тестовых данных (загрязнение данных, contamination). LLM-как-судья — масштабируемый подход, но имеет предвзятости: предпочтение длинных ответов, своего стиля, порядка. Человеческая оценка (Chatbot Arena, Elo-рейтинги) — золотой стандарт, но дорогая и медленная. На практике комбинируют все три: бенчмарки для скрининга, LLM-judge для итерации, людей для финальной валидации.