Тренажер
Решайте задачи по Python, SQL и алгоритмам, а также разбирайте вопросы с реальных собеседований. У вопросов есть ответ, теория, типичные ошибки и источник с таймкодом.
18 разборов с таймкодами, задачами, ответами и ссылками на тренажер.
119 задач и 54 вопросов для подготовки к собеседованиям
173 материалов
FizzBuzz
EasyРазвернуть вложенный список
MediumMerge двух DataFrame + фильтрация
EasyGroupBy + агрегация продаж
EasyФильтрация + сортировка + Top-N
EasyValue Counts + процент от общего
MediumMulti-column GroupBy + Agg
MediumPivot Table
MediumСкользящее среднее
MediumResample Time Series
HardMerge Asof
HardReshape: Melt
MediumZ-score нормализация
EasyМатричное умножение
EasyBroadcasting: центрирование строк
MediumBoolean indexing: элементы > mean
MediumBatch Matmul
HardFill NaN: медиана и мода
EasyДедупликация по email
MediumIQR Outliers: замена выбросов
MediumParse Dates: единый формат
MediumOne-Hot Encoding from scratch
MediumTarget Encoding с smoothing
HardBinning числовых фичей (quantile)
MediumLag Features для Time Series
MediumLogistic Regression с Gradient Descent
HardDecision Tree (CART) Classification
HardNaive Bayes Classifier (Gaussian)
MediumA/B Test Analysis: z-test и p-value
MediumМетрики классификации: Precision, Recall, F1
EasyK-Fold Cross-Validation from scratch
MediumBootstrap Confidence Interval
HardВыборка с условием
EasyJOIN двух таблиц
EasyGROUP BY + HAVING
MediumТоп-5 продуктов по выручке
EasyФильтрация заказов по дате
EasyПоиск товаров по шаблону (LIKE)
EasyПользователи без заказов
EasyМенеджер и подчинённые (Self-JOIN)
MediumВсе комбинации размеров и цветов (CROSS JOIN)
EasyКлиенты во всех категориях
HardСтатистика заказов по городам (Multi-JOIN)
MediumСредний чек по городам
EasyДублирующиеся email-адреса
EasyВторая по величине зарплата
MediumКатегории с выручкой выше средней
MediumСтатистика по отделам
MediumРанжирование зарплат по отделам
MediumРост выручки месяц-к-месяцу (LAG)
MediumНарастающий итог расходов
MediumМедиана зарплат по отделам
HardКвартили по зарплатам (NTILE)
MediumАктивные пользователи за 7 дней
EasyРекурсивная иерархия категорий
HardТоп-2 товара в каждой категории (CTE + ROW_NUMBER)
MediumPivot: выручка по кварталам
HardДедупликация записей (оставить последнюю)
MediumКлассификация клиентов (CASE WHEN)
MediumФорматирование и группировка по дате
MediumПарсинг строковых данных
MediumУсловная агрегация (Conditional Aggregation)
MediumМаксимальная серия логинов (Gaps & Islands)
HardRetention анализ (Day 1, Day 7)
HardВоронка конверсий (Funnel Analysis)
HardScaled Dot-Product Attention
HardTwo Sum
EasyКорректная скобочная последовательность
EasyГруппировка анаграмм
MediumПроизведение массива кроме самого элемента
MediumTop K частых элементов
MediumПроверка палиндрома
Easy3Sum
MediumЛучшее время для покупки/продажи акций
EasyНаидлиннейшая подстрока без повторений
MediumСлияние двух отсортированных списков
EasyРазвернуть связанный список
EasyЦикл в связанном списке
EasyБинарный поиск
EasyОбход бинарного дерева по уровням
MediumКоличество островов
MediumМаксимальная подмассив (Kadane)
MediumПодъём по лестнице
EasyРазмен монет
MediumОбъединение интервалов
MediumLRU Cache
MediumCosine Similarity
EasyK-Means from Scratch
HardTF-IDF from Scratch
MediumAUC-ROC from Scratch
MediumЛинейная регрессия (нормальное уравнение)
MediumСледующий больший элемент
MediumВычислить обратную польскую запись
MediumЕжедневные температуры
MediumМинимальный стек
MediumМаксимальная сумма подмассива длины K
EasyКоличество подмассивов с суммой K
MediumМинимальное окно с подстрокой
HardМаксимум в скользящем окне
HardK-й наибольший элемент
MediumСлияние K отсортированных списков
HardМедиана потока данных
HardK ближайших точек к началу координат
MediumМаксимальное количество непересекающихся интервалов
MediumПрыжки по массиву
MediumРаздача конфет
HardЗаправочные станции
MediumВсе перестановки
MediumКомбинации суммы
MediumПодмножества
MediumN-Queens
HardTop K частых символов
MediumСреднее четырех чисел из среднего пяти
EasyСимвол с максимальной длиной подряд
EasyРазность отсортированных списков id
MediumПодматрица с максимальным средним
HardОбход бинарного дерева зигзагом
MediumLRU Cache с операциями get/put
MediumTop-50 товаров на пользователя
MediumКак часто пересчитывать стоимость доставки в корзине
MediumКлиент видит стоимость доставки или порог бесплатной доставки в корзине. Каталог и корзина меняются, а на чек-ауте нельзя показать другую цену и вызвать негатив. Как спроектировать пересчет и где провести границу между точностью, latency и стоимостью?
Какие внешние сигналы брать для более качественного прогноза
MediumЕсли не смотреть только на продуктовые события внутри приложения, какие сигналы стоит получить у стейкхолдеров, чтобы улучшить прогноз или рекомендационную систему?
Как учитывать сезонность в рекомендациях и прогнозах
MediumТы упомянул сезонность. Как с ней работать в фичах для рекомендационных систем, прогнозов или продуктовой аналитики?
Какая архитектура эмбеддингов была в RAG
MediumКакую архитектуру эмбеддингов вы построили для RAG: обычный retrieval pipeline или что-то сложнее?
Как оценивать качество RAG-системы
MediumКак оценивали качество: насколько хорошо получается вести диалог, отвечать на вопрос или искать нужные документы?
Какой ML-проект ты доводил до production
EasyКаким проектом ты занимался end-to-end и доводил до production? Что именно было твоей зоной ответственности?
Какую deep learning архитектуру выбрать для временного ряда
HardПосле градиентного бустинга: если смотреть в сторону deep learning, какую архитектуру предложить для последовательных данных или временного ряда и почему?
Нужно ли DS понимать бизнес-логику продукта
EasyНасколько важно дата-сайентисту понимать бизнес-логику того, как пользователи попали в приложение? Достаточно ли просто событий из базы?
HFT notebook-heavy задача: постановка и признаки
HardНа собеседовании показывают notebook-heavy задачу по HFT/time-series данным. Как подойти к постановке, признакам, валидации и базовому решению, если полноценный кодовый раннер под задачу пока не делаем?
Что такое KV cache в LLM inference
MediumНа собеседовании спрашивают про KV cache в LLM inference. Что это такое, зачем он нужен и какие trade-off появляются в production?
Как работает speculative decoding и acceptance ratio
HardИнтервьюер спрашивает: как можно держать высокий acceptance ratio при большом числе draft tokens в speculative decoding?
Что знать про FlashAttention на LLM-интервью
MediumНа LLM serving собеседовании спрашивают: знаешь ли ты что-то про FlashAttention? Как объяснить идею без ухода в низкоуровневые детали?
Как думать про distributed vector search
HardКоманда говорит, что переходит от single-node vector search к distributed vector retrieval system. Какие вопросы и trade-off стоит обсудить?
Как прогнозировать LTV для новых когорт без истории
HardЕсть LTV/retention прогноз по когортам. Для старых когорт есть 7/30/180 дней истории, а для новых есть только install или trial. Как строить прогноз уже сегодня?
Как говорить про прогнозирование временных рядов
MediumИнтервьюер спрашивает про опыт с forecast/retention/revenue/LTV и библиотеками вроде Prophet или Darts. Как отвечать, если опыт не только в специализированных библиотеках?
Как работает токенизатор и зачем его обучать
MediumИнтервьюер просит рассказать про токенизатор: какие бывают алгоритмы, как он работает и нужно ли его обучать под домен или язык?
Как проверить, стоит ли менять LLM на новую open-source модель
MediumВышла новая open-source LLM. Как проверить, станет ли она лучше текущей модели в продукте и стоит ли ее внедрять?
Для чего нужны pytest fixtures и какие бывают scopes
EasyИнтервьюер спрашивает про pytest fixtures: зачем они нужны и какие scopes у них бывают?
Для чего нужен Docker multistage build
EasyИнтервьюер спрашивает: зачем в Dockerfile нужен multistage build и что он дает в production?
Как понять, что ML-фича принесла пользу
MediumИнтервьюер спрашивает: какие метрики отслеживали и как понимали, что внедренное ML-решение действительно приносит пользу?
Чем логистическая регрессия похожа на линейную
EasyИнтервьюер спрашивает: если рассматривать логистическую регрессию, чем она похожа на линейную и чем отличается?
Как использовать LLM для фичей в прогнозе производства
HardЕсть прогноз производства по рудникам/активам. В отчетах компаний есть текст, планы роста, графики и будущие ожидания. Как использовать LLM, чтобы улучшить табличную модель, но не заменить ее полностью?
Как валидировать LLM-фичи и не дать модели додумывать
HardLLM извлекает признаки из PDF-отчета: например, будущий план производства. Как проверить, что признак основан на документе, а не на внешних знаниях или догадках?
Как превратить годовой guidance в квартальные фичи
HardВ отчете сказано: производство вырастет на 20% за год, рост начнется во второй половине года. Модели нужен прогноз по кварталам. Что должна вернуть LLM-фича?
Baseline для рекомендаций в корзине через item-item co-occurrence
MediumНужно сделать рекомендации товаров в блоке корзины: 10 млн пользователей и 100 тыс. товаров. Как построить простой baseline через совместные покупки?
Что делать, если рекомендации в корзине не нашлись
MediumВ item-item рекомендациях для корзины может не быть соседей: новый товар, редкий товар, новый пользователь или корзина из многих товаров. Какие fallback предусмотреть?
Как учитывать категории и комплементарность в корзине
MediumЕсли пользователь добавил кольцо, стоит ли рекомендовать еще кольца? Как сформулировать цель и ограничения для рекомендаций в корзине?
Production-архитектура рекомендаций в корзине
HardПосле baseline и ranker нужно объяснить production: где считаются кандидаты, где хранятся фичи, как часто пересчитывать рекомендации при изменении корзины?
Почему начинать поиск по статьям с BM25 baseline
MediumНужно сделать поиск/подсказки по базе статей или банковских ответов. Почему разумно начать с BM25/TF-IDF, а не сразу с embeddings/RAG?
Как оценивать поиск/RAG по статьям offline и online
MediumКак понять, что система поиска по статьям или RAG работает хорошо? Какие offline и online метрики использовать?
Как проектировать related articles и reranker
HardПомимо ответа на free-text вопрос нужно показывать related articles. Как их формировать: заранее или в зависимости от запроса, и где нужен reranker?
Из каких этапов состоит современная рекомендательная система
EasyНа screening по RecSys тебя просят объяснить, из каких двух основных этапов обычно состоит рекомендательная система. Как ответить коротко, но не поверхностно?
Что такое cold start для пользователя и item
EasyКак объяснить cold start в RecSys и какие практичные решения предложить для нового пользователя и нового item?
Как говорить про A/B-тесты в RecSys screening
EasyНа screening спрашивают, касался ли ты A/B-тестов. Как структурно объяснить роль A/B-теста для рекомендательной системы?
Как объяснить MLflow, pipeline и Feature Store в ML-команде
MediumНа screening обсуждают стек: MLflow, pipeline, PySpark, Feature Store. Как объяснить, зачем это нужно в production ML?
Как заранее понять пользу audio-event фичи
MediumЕсть новая возможность: по аудио понять событие вокруг пользователя, например лай собаки, открытие двери или разбитое стекло. Как до обучения модели понять, есть ли продуктовая польза?
Как построить модель распознавания аудио-событий
MediumКак технически построить модель, которая по аудио определяет событие: лай собаки, звук двери, разбитое стекло и похожие классы?
Как деплоить audio-event модель на устройство
HardМодель распознавания аудио-событий должна работать на колонке/камере с CPU и ограничениями по latency, privacy и батарее. Как это спроектировать?
Сколько данных нужно и когда включать high-resolution режим
MediumДля audio-event фичи спрашивают: сколько данных нужно для обучения и как решить, когда переключать камеру/устройство на более дорогой режим обработки?
Как посчитать поток событий для CTR dashboard
MediumНужно построить систему, где рекламодатель смотрит CTR кампаний. Дано 200 млрд показов в день и CTR около 1%. Как начать system design с чисел?
Какие события класть в Kafka и как партиционировать
MediumДля realtime CTR dashboard нужно описать Kafka/event log. Какая схема события нужна и по какому ключу партиционировать?
Как агрегировать CTR по минутам и где хранить результат
HardКак должен выглядеть stream job для CTR dashboard: что он читает, что считает и куда пишет результат для графика рекламодателя?
Как поставить задачу раннего VIP-прогноза
MediumВ casino-продукте sales-команде нужно как можно раньше понять, станет ли новый игрок VIP по депозитам и обороту. Как сформулировать ML-задачу, target, горизонт прогноза и бизнес-действие?
На какой день VIP-прогноз становится достаточно надежным
MediumДля нового игрока нужно понять, когда уже можно доверять прогнозу VIP-статуса. Как оценить, на каком дне жизни клиента модель дает достаточно полезный сигнал?
Какие ранние признаки отличают потенциального VIP
MediumИгрок только пришел в casino-продукт. Какие признаки можно собрать в первые дни, чтобы отличить потенциального VIP от обычного игрока?
Как собрать feature pipeline, batch scoring и мониторинг
HardДанные casino-продукта лежат в хранилище и приходят через очередь сообщений. Нужно регулярно обновлять признаки и скорить пользователей. Как спроектировать production pipeline?
Как сформулировать text-to-scene retrieval задачу
HardЕсть большой архив дорожных сцен автономного автомобиля. По текстовому запросу нужно находить релевантные сегменты, например редкие ситуации с пешеходами или необычным трафиком. Как начать ML System Design?
Как получить пары текстовый запрос — дорожный сегмент
HardДля обучения retrieval нужны пары текстовый запрос и релевантный дорожный сегмент из последовательностей изображений. Где взять такие labels и как не утонуть в ручной разметке?
Как устроить dual encoder retrieval для последовательностей изображений
HardНужно индексировать не одиночные картинки, а последовательности дорожных кадров. Как сделать retrieval-модель и embedding index для text-to-scene search?
Как добавить reranker и мониторить деградацию retrieval
HardПосле ANN retrieval нужно улучшить качество выдачи и понять, когда система деградирует. Как спроектировать reranker, evaluation и monitoring?
Какие бизнес-метрики обсуждать со стейкхолдером marketplace ML задачи
MediumPM приходит с marketplace ML задачей: улучшить цену, рекомендацию или промо-блок объявления. Какие вопросы и метрики нужно обсудить до выбора модели?
Какие признаки использовать для модели цены объявления
MediumНужно построить модель для оценки или подсказки цены second-hand объявления в marketplace. Какие признаки и baseline стоит предложить?
Как делать train/test split и offline validation для marketplace модели
HardДля marketplace pricing/recommendation модели нужно построить offline validation. Как выбрать строку датасета, train/test split и метрики, чтобы не получить красивую, но бесполезную оценку?
Как A/B-тестировать новую карусель или тег Deal of the Day
HardВ marketplace добавляют новую карусель или тег Deal of the Day с модельным отбором объявлений. В A/B выросла конверсия. Как понять, что сработала именно модель, а не просто новый UI/тег?