Полная программа
Подробная программа теперь отображается как роадмап: проходите темы по этапам, открывайте материалы и отмечайте прогресс.
MLOps & Data Engineering
От управления окружениями до production ML-пайплайнов: Docker, CI/CD, PySpark, DWH и мониторинг моделей.
Прогресс
0 из 16 тем🧱 Основы окружений
0/3Python окружения
pip, poetry, uv, pyenv, venv — как работает, зачем нужно, чем отличаются.
Docker
Dockerfile, docker-compose, volumes, networks, multi-stage builds.
Git + CI/CD
Git (branching, merge, rebase) + CI/CD (GitHub Actions) для ML: автотесты кода и данных, DVC для версионирования датасетов, автоматический деплой модели при merge в main.
🗄️ Данные и хранилища
0/4Продвинутый SQL
Оконные функции, CTE, EXPLAIN ANALYZE, индексы, партиционирование.
NoSQL базы данных
MongoDB, Redis, Cassandra — когда что использовать, CAP-теорема.
Data Warehouse
Star/Snowflake schema, OLAP vs OLTP, staging/prod/replica.
Data Modeling
Как проектировать таблицы для аналитики и ML: нормализация (избегаем дубликатов) vs денормализация (ускоряем запросы), SCD для отслеживания изменений (цена товара менялась 10 раз — какую брать?), Data Vault для больших хранилищ.
⚡ Обработка данных
0/3PySpark
Обработка данных, которые не влезают в память одной машины: DataFrame API, Spark SQL, broadcast join, partitioning. Типичная ML-задача: собрать user-level фичи из 500 ГБ логов за 10 минут.
ETL/ELT пайплайны
Batch vs streaming, Kafka basics, Change Data Capture, ELT-подход с dbt.
Data Quality
Great Expectations, dbt tests, data contracts — контроль качества данных.
🔧 ML Infrastructure
0/3Трекинг экспериментов
MLflow, DVC, W&B — трекинг экспериментов, версионирование моделей и данных.
Feature Store
Online/offline features, Feast, Tecton — централизованное управление фичами.
Оркестрация
Airflow, Dagster, Prefect — оркестраторы, которые запускают ML-пайплайн каждый день: extract данных → compute фичей → retrain модели → deploy. DAG, scheduling, retries, алерты.
🚀 Serving & Production
0/3Model Serving
FastAPI, TorchServe, Triton, vLLM — деплой моделей, батчинг, кеширование.
Мониторинг и Observability
Data drift, model drift, Prometheus/Grafana, алерты, Evidently.
A/B тестирование ML
Shadow mode, canary deploys, interleaving, статзначимость для ML-экспериментов.