Начать в Telegram

На главную

Полная программа

Подробная программа теперь отображается как роадмап: проходите темы по этапам, открывайте материалы и отмечайте прогресс.

Базовый ML NLP и LLM Рекомендательные системы MLOps & Data Engineering Computer Vision Advanced ML Engineering

MLOps & Data Engineering

От управления окружениями до production ML-пайплайнов: Docker, CI/CD, PySpark, DWH и мониторинг моделей.

Прогресс

0 из 16 тем

Кликни на кружок ○ чтобы отметить прогресс0%

🧱 Основы окружений

0/3

Обязательно

Python окружения

pip, poetry, uv, pyenv, venv — как работает, зачем нужно, чем отличаются.

3 ресурса

Читать →

Обязательно

Docker

Dockerfile, docker-compose, volumes, networks, multi-stage builds.

3 ресурса

Читать →

Обязательно

Git + CI/CD

Git (branching, merge, rebase) + CI/CD (GitHub Actions) для ML: автотесты кода и данных, DVC для версионирования датасетов, автоматический деплой модели при merge в main.

3 ресурса

Читать →

🗄️ Данные и хранилища

0/4

Обязательно

Продвинутый SQL

Оконные функции, CTE, EXPLAIN ANALYZE, индексы, партиционирование.

3 ресурса

Читать →

🌟 Бонус

NoSQL базы данных

MongoDB, Redis, Cassandra — когда что использовать, CAP-теорема.

3 ресурса

Читать →

Обязательно

Data Warehouse

Star/Snowflake schema, OLAP vs OLTP, staging/prod/replica.

3 ресурса

Читать →

🌟 Бонус

Data Modeling

Как проектировать таблицы для аналитики и ML: нормализация (избегаем дубликатов) vs денормализация (ускоряем запросы), SCD для отслеживания изменений (цена товара менялась 10 раз — какую брать?), Data Vault для больших хранилищ.

3 ресурса

Читать →

⚡ Обработка данных

0/3

Обязательно

PySpark

Обработка данных, которые не влезают в память одной машины: DataFrame API, Spark SQL, broadcast join, partitioning. Типичная ML-задача: собрать user-level фичи из 500 ГБ логов за 10 минут.

3 ресурса

Читать →

Обязательно

ETL/ELT пайплайны

Batch vs streaming, Kafka basics, Change Data Capture, ELT-подход с dbt.

3 ресурса

Читать →

🌟 Бонус

Data Quality

Great Expectations, dbt tests, data contracts — контроль качества данных.

3 ресурса

Читать →

🔧 ML Infrastructure

0/3

Обязательно

Трекинг экспериментов

MLflow, DVC, W&B — трекинг экспериментов, версионирование моделей и данных.

3 ресурса

Читать →

🌟 Бонус

Feature Store

Online/offline features, Feast, Tecton — централизованное управление фичами.

3 ресурса

Читать →

Обязательно

Оркестрация

Airflow, Dagster, Prefect — оркестраторы, которые запускают ML-пайплайн каждый день: extract данных → compute фичей → retrain модели → deploy. DAG, scheduling, retries, алерты.

3 ресурса

Читать →

🚀 Serving & Production

0/3

Обязательно

Model Serving

FastAPI, TorchServe, Triton, vLLM — деплой моделей, батчинг, кеширование.

3 ресурса

Читать →

Обязательно

Мониторинг и Observability

Data drift, model drift, Prometheus/Grafana, алерты, Evidently.

3 ресурса

Читать →

🌟 Бонус

A/B тестирование ML

Shadow mode, canary deploys, interleaving, статзначимость для ML-экспериментов.

3 ресурса

Читать →

ML Mentor — От нуля до оффера в ML