Тренажер

Решайте задачи по Python, SQL и алгоритмам, а также разбирайте вопросы с реальных собеседований. У вопросов есть ответ, теория, типичные ошибки и источник с таймкодом.

Реальные собесы

18 разборов с таймкодами, задачами, ответами и ссылками на тренажер.

Открыть раздел

119 задач и 54 вопросов для подготовки к собеседованиям

Python: 34SQL: 34Algo: 51Вопросы: 54
Easy: 31Medium: 65Hard: 23

173 материалов

FizzBuzz

Easy
Python3 мин
циклыусловия

Развернуть вложенный список

Medium
Python5 мин
рекурсиясписки

Merge двух DataFrame + фильтрация

Easy
Python5 мин
Pandasmergegroupbyфильтрация

GroupBy + агрегация продаж

Easy
Python5 мин
Pandasgroupbyагрегация

Фильтрация + сортировка + Top-N

Easy
Python5 мин
Pandasфильтрациясортировкаnlargest

Value Counts + процент от общего

Medium
Python5 мин
Pandasvalue_countsпроценты

Multi-column GroupBy + Agg

Medium
Python5 мин
Pandasgroupbyaggmulti-column

Pivot Table

Medium
Python5 мин
Pandaspivot_tablereshape

Скользящее среднее

Medium
Python5 мин
Pandasrollingtime-series

Resample Time Series

Hard
Python5 мин
Pandasresampletime-series

Merge Asof

Hard
Python5 мин
Pandasmerge_asoftime-seriesjoins

Reshape: Melt

Medium
Python5 мин
Pandasmeltreshape

Z-score нормализация

Easy
Python5 мин
NumPynormalizationstatistics

Матричное умножение

Easy
Python5 мин
NumPymatrixlinear-algebra

Broadcasting: центрирование строк

Medium
Python5 мин
NumPybroadcastingmatrix

Boolean indexing: элементы > mean

Medium
Python5 мин
NumPyboolean-indexingwhere

Batch Matmul

Hard
Python5 мин
NumPyeinsumbatchmatmul

Fill NaN: медиана и мода

Easy
Python5 мин
Pandasfillnadata-cleaningNaN

Дедупликация по email

Medium
Python5 мин
Pandasdrop_duplicatesdata-cleaningdeduplication

IQR Outliers: замена выбросов

Medium
Python5 мин
PandasIQRoutliersdata-cleaning

Parse Dates: единый формат

Medium
Python5 мин
Pandasdatetimeparsingdata-cleaning

One-Hot Encoding from scratch

Medium
Python5 мин
Feature Engineeringencodingone-hot

Target Encoding с smoothing

Hard
Python10 мин
Feature Engineeringtarget encodingsmoothingрегуляризация

Binning числовых фичей (quantile)

Medium
Python5 мин
Feature Engineeringbinningquantileдискретизация

Lag Features для Time Series

Medium
Python5 мин
Feature Engineeringtime serieslag features

Logistic Regression с Gradient Descent

Hard
Python10 мин
MLLogistic Regressiongradient descentfrom scratch
Яндекс, Авито

Decision Tree (CART) Classification

Hard
Python10 мин
MLDecision TreeCARTfrom scratchGini

Naive Bayes Classifier (Gaussian)

Medium
Python10 мин
MLNaive BayesGaussianfrom scratchклассификация

A/B Test Analysis: z-test и p-value

Medium
Python10 мин
Applied DSA/B тестz-testp-valueстатистика
Сбер, Ozon

Метрики классификации: Precision, Recall, F1

Easy
Python5 мин
Applied DSметрикиPrecisionRecallF1Confusion Matrix
Яндекс, Сбер, Т-Банк, Авито

K-Fold Cross-Validation from scratch

Medium
Python5 мин
Applied DScross-validationk-foldMAE

Bootstrap Confidence Interval

Hard
Python10 мин
Applied DSbootstrapconfidence intervalстатистика

Выборка с условием

Easy
SQL3 мин
SELECTWHEREORDER BY

JOIN двух таблиц

Easy
SQL4 мин
JOINSELECT

GROUP BY + HAVING

Medium
SQL5 мин
GROUP BYHAVINGагрегация

Топ-5 продуктов по выручке

Easy
SQL5 мин
SELECTORDER BYLIMITComputed Columns

Фильтрация заказов по дате

Easy
SQL5 мин
SELECTWHEREANDDate Filtering

Поиск товаров по шаблону (LIKE)

Easy
SQL5 мин
SELECTWHERELIKEPattern Matching

Пользователи без заказов

Easy
SQL5 мин
LEFT JOINIS NULLAnti-Join

Менеджер и подчинённые (Self-JOIN)

Medium
SQL6 мин
Self-JOINJOINComparison

Все комбинации размеров и цветов (CROSS JOIN)

Easy
SQL5 мин
CROSS JOINCartesian Product

Клиенты во всех категориях

Hard
SQL8 мин
JOINGROUP BYHAVINGCOUNT DISTINCT

Статистика заказов по городам (Multi-JOIN)

Medium
SQL7 мин
Multi-JOINGROUP BYHAVINGAggregation

Средний чек по городам

Easy
SQL5 мин
GROUP BYHAVINGAVGROUND

Дублирующиеся email-адреса

Easy
SQL5 мин
GROUP BYHAVINGCOUNTDuplicates

Вторая по величине зарплата

Medium
SQL6 мин
SubqueryDISTINCTLIMITOFFSET

Категории с выручкой выше средней

Medium
SQL7 мин
GROUP BYHAVINGSubqueryAVG

Статистика по отделам

Medium
SQL6 мин
GROUP BYHAVINGMINMAXAVGCOUNT

Ранжирование зарплат по отделам

Medium
SQL6 мин
Window FunctionsDENSE_RANKPARTITION BY

Рост выручки месяц-к-месяцу (LAG)

Medium
SQL7 мин
Window FunctionsLAGMoM Growth

Нарастающий итог расходов

Medium
SQL6 мин
Window FunctionsSUMRunning TotalROWS

Медиана зарплат по отделам

Hard
SQL10 мин
Window FunctionsROW_NUMBERMedianCTE

Квартили по зарплатам (NTILE)

Medium
SQL5 мин
Window FunctionsNTILEQuartiles

Активные пользователи за 7 дней

Easy
SQL6 мин
CTEWITHCOUNTDate Filtering

Рекурсивная иерархия категорий

Hard
SQL10 мин
Recursive CTEHierarchyWITH RECURSIVE

Топ-2 товара в каждой категории (CTE + ROW_NUMBER)

Medium
SQL7 мин
CTEROW_NUMBERTop-N per Group

Pivot: выручка по кварталам

Hard
SQL8 мин
CTECASE WHENPivotSUM

Дедупликация записей (оставить последнюю)

Medium
SQL7 мин
CTEROW_NUMBERDeduplication

Классификация клиентов (CASE WHEN)

Medium
SQL7 мин
CASE WHENLEFT JOINCOALESCESegmentation

Форматирование и группировка по дате

Medium
SQL6 мин
SUBSTRCASTDate FunctionsGROUP BY

Парсинг строковых данных

Medium
SQL7 мин
SUBSTRINSTRString FunctionsParsing

Условная агрегация (Conditional Aggregation)

Medium
SQL7 мин
CASE WHENConditional AggregationSUMCOUNT

Максимальная серия логинов (Gaps & Islands)

Hard
SQL10 мин
Gaps and IslandsWindow FunctionsROW_NUMBERDATE

Retention анализ (Day 1, Day 7)

Hard
SQL10 мин
RetentionLEFT JOINCASE WHENCohort Analysis

Воронка конверсий (Funnel Analysis)

Hard
SQL10 мин
FunnelCTELAGConversionAnalytics

Scaled Dot-Product Attention

Hard
Algo10 мин
attentiontransformernumpyML
Яндекс, Сбер, Авито

Two Sum

Easy
Algo5 мин
ArraysHash Map

Корректная скобочная последовательность

Easy
Algo5 мин
StackString

Группировка анаграмм

Medium
Algo10 мин
ArraysHash MapSorting

Произведение массива кроме самого элемента

Medium
Algo10 мин
ArraysPrefix Sum

Top K частых элементов

Medium
Algo10 мин
ArraysHash MapHeap

Проверка палиндрома

Easy
Algo5 мин
Two PointersString

3Sum

Medium
Algo10 мин
Two PointersSorting

Лучшее время для покупки/продажи акций

Easy
Algo5 мин
ArraysSliding Window

Наидлиннейшая подстрока без повторений

Medium
Algo10 мин
Sliding WindowHash Map

Слияние двух отсортированных списков

Easy
Algo5 мин
Linked ListsTwo Pointers

Развернуть связанный список

Easy
Algo5 мин
Linked Lists

Цикл в связанном списке

Easy
Algo5 мин
Linked ListsTwo Pointers

Бинарный поиск

Easy
Algo5 мин
Binary Search

Обход бинарного дерева по уровням

Medium
Algo10 мин
TreesBFS
Яндекс, Lamoda, Сбер

Количество островов

Medium
Algo10 мин
GraphsDFSBFS

Максимальная подмассив (Kadane)

Medium
Algo5 мин
Dynamic ProgrammingArrays

Подъём по лестнице

Easy
Algo5 мин
Dynamic ProgrammingMath

Размен монет

Medium
Algo10 мин
Dynamic ProgrammingBFS

Объединение интервалов

Medium
Algo10 мин
SortingIntervals

LRU Cache

Medium
Algo15 мин
DesignHash MapLinked Lists

Cosine Similarity

Easy
Algo5 мин
DSLinear AlgebraNumPy

K-Means from Scratch

Hard
Algo15 мин
DSK-MeansClusteringNumPy

TF-IDF from Scratch

Medium
Algo10 мин
DSNLPTF-IDF

AUC-ROC from Scratch

Medium
Algo10 мин
DSMetricsAUC-ROC
Яндекс, Т-Банк, Ozon, Авито

Линейная регрессия (нормальное уравнение)

Medium
Algo10 мин
DSLinear RegressionNumPy
Яндекс, Т-Банк, Сбер, Авито

Следующий больший элемент

Medium
Algo5 мин
StackMonotonic Stack

Вычислить обратную польскую запись

Medium
Algo5 мин
StackMath

Ежедневные температуры

Medium
Algo5 мин
StackMonotonic Stack

Минимальный стек

Medium
Algo5 мин
StackDesign

Максимальная сумма подмассива длины K

Easy
Algo5 мин
Sliding WindowArrays

Количество подмассивов с суммой K

Medium
Algo5 мин
Prefix SumHash MapArrays

Минимальное окно с подстрокой

Hard
Algo10 мин
Sliding WindowHash MapString

Максимум в скользящем окне

Hard
Algo10 мин
Sliding WindowDequeMonotonic Queue

K-й наибольший элемент

Medium
Algo5 мин
HeapSortingQuickselect

Слияние K отсортированных списков

Hard
Algo10 мин
HeapMergeLinked List

Медиана потока данных

Hard
Algo10 мин
HeapDesignTwo Heaps

K ближайших точек к началу координат

Medium
Algo5 мин
HeapSortingMath

Максимальное количество непересекающихся интервалов

Medium
Algo5 мин
GreedySortingIntervals

Прыжки по массиву

Medium
Algo5 мин
GreedyArrays

Раздача конфет

Hard
Algo10 мин
GreedyArrays

Заправочные станции

Medium
Algo5 мин
GreedyArrays

Все перестановки

Medium
Algo5 мин
BacktrackingRecursion

Комбинации суммы

Medium
Algo5 мин
BacktrackingRecursion

Подмножества

Medium
Algo5 мин
BacktrackingRecursionBit Manipulation

N-Queens

Hard
Algo10 мин
BacktrackingRecursion

Top K частых символов

Medium
Python5 мин
PythonHash MapSortingTop Kreal-interview

Среднее четырех чисел из среднего пяти

Easy
Python3 мин
PythonMathAveragereal-interview

Символ с максимальной длиной подряд

Easy
Algo4 мин
StringOne PassCorner Casesreal-interview

Разность отсортированных списков id

Medium
Algo5 мин
Two PointersSorted ArraysData Leakagereal-interview

Подматрица с максимальным средним

Hard
Algo10 мин
MatrixPrefix SumSliding Windowreal-interview

Обход бинарного дерева зигзагом

Medium
Algo10 мин
TreesBFSDequereal-interview

LRU Cache с операциями get/put

Medium
Algo15 мин
DesignHash MapLinked ListCachereal-interview

Top-50 товаров на пользователя

Medium
SQL5 мин
SQLWindow FunctionsROW_NUMBERTop K per Groupreal-interview

Как часто пересчитывать стоимость доставки в корзине

Medium

Клиент видит стоимость доставки или порог бесплатной доставки в корзине. Каталог и корзина меняются, а на чек-ауте нельзя показать другую цену и вызвать негатив. Как спроектировать пересчет и где провести границу между точностью, latency и стоимостью?

Вопрос12 мин
recsyspricingdeliverymonetizationlatencysystem-design

Какие внешние сигналы брать для более качественного прогноза

Medium

Если не смотреть только на продуктовые события внутри приложения, какие сигналы стоит получить у стейкхолдеров, чтобы улучшить прогноз или рекомендационную систему?

Вопрос10 мин
recsysfeaturesstakeholdersmarketingcontextfeature-engineering

Как учитывать сезонность в рекомендациях и прогнозах

Medium

Ты упомянул сезонность. Как с ней работать в фичах для рекомендационных систем, прогнозов или продуктовой аналитики?

Вопрос9 мин
recsysseasonalityfeaturestime-seriesfeature-engineeringvalidation

Какая архитектура эмбеддингов была в RAG

Medium

Какую архитектуру эмбеддингов вы построили для RAG: обычный retrieval pipeline или что-то сложнее?

Вопрос8 мин
ragembeddingsretrievalvector-searcharchitecturetradeoffs

Как оценивать качество RAG-системы

Medium

Как оценивали качество: насколько хорошо получается вести диалог, отвечать на вопрос или искать нужные документы?

Вопрос10 мин
ragevaluationmetricsretrievaloffline-evaluationllm-as-judge

Какой ML-проект ты доводил до production

Easy

Каким проектом ты занимался end-to-end и доводил до production? Что именно было твоей зоной ответственности?

Вопрос7 мин
productionownershipmlopsdeploymentstorytellingsystem-ownership

Какую deep learning архитектуру выбрать для временного ряда

Hard

После градиентного бустинга: если смотреть в сторону deep learning, какую архитектуру предложить для последовательных данных или временного ряда и почему?

Вопрос12 мин
mlsdtime-seriesdeep-learningsequence-modelsarchitecture-choicevalidation

Нужно ли DS понимать бизнес-логику продукта

Easy

Насколько важно дата-сайентисту понимать бизнес-логику того, как пользователи попали в приложение? Достаточно ли просто событий из базы?

Вопрос6 мин
business-contextfeaturesproduct-analyticsdata-qualityproduct-thinkingcommunication

HFT notebook-heavy задача: постановка и признаки

Hard

На собеседовании показывают notebook-heavy задачу по HFT/time-series данным. Как подойти к постановке, признакам, валидации и базовому решению, если полноценный кодовый раннер под задачу пока не делаем?

Вопрос15 мин
hfttime-seriesfeature-engineeringvalidationproblem-framingtemporal-validation

Что такое KV cache в LLM inference

Medium

На собеседовании спрашивают про KV cache в LLM inference. Что это такое, зачем он нужен и какие trade-off появляются в production?

Вопрос9 мин
llm-servingkv-cacheinferencelatencysystem-understandingperformance

Как работает speculative decoding и acceptance ratio

Hard

Интервьюер спрашивает: как можно держать высокий acceptance ratio при большом числе draft tokens в speculative decoding?

Вопрос12 мин
llm-servingspeculative-decodinglatencydraft-modelperformance-optimizationarchitecture

Что знать про FlashAttention на LLM-интервью

Medium

На LLM serving собеседовании спрашивают: знаешь ли ты что-то про FlashAttention? Как объяснить идею без ухода в низкоуровневые детали?

Вопрос8 мин
llm-servingflashattentionattentiongpu-optimizationperformancehardware-awareness

Как думать про distributed vector search

Hard

Команда говорит, что переходит от single-node vector search к distributed vector retrieval system. Какие вопросы и trade-off стоит обсудить?

Вопрос12 мин
vector-searchanndistributed-systemsrecsyssearchsystem-design

Как прогнозировать LTV для новых когорт без истории

Hard

Есть LTV/retention прогноз по когортам. Для старых когорт есть 7/30/180 дней истории, а для новых есть только install или trial. Как строить прогноз уже сегодня?

Вопрос12 мин
ltvtime-seriescohortscold-startproblem-framingfeature-engineering

Как говорить про прогнозирование временных рядов

Medium

Интервьюер спрашивает про опыт с forecast/retention/revenue/LTV и библиотеками вроде Prophet или Darts. Как отвечать, если опыт не только в специализированных библиотеках?

Вопрос9 мин
time-seriesforecastingltvbaselinemodel-selectionvalidation

Как работает токенизатор и зачем его обучать

Medium

Интервьюер просит рассказать про токенизатор: какие бывают алгоритмы, как он работает и нужно ли его обучать под домен или язык?

Вопрос10 мин
llmtokenizationbpesentencepiecenlptheory

Как проверить, стоит ли менять LLM на новую open-source модель

Medium

Вышла новая open-source LLM. Как проверить, станет ли она лучше текущей модели в продукте и стоит ли ее внедрять?

Вопрос10 мин
llmevaluationmodel-selectionproductionoffline-evaluationrollout

Для чего нужны pytest fixtures и какие бывают scopes

Easy

Интервьюер спрашивает про pytest fixtures: зачем они нужны и какие scopes у них бывают?

Вопрос6 мин
pythonpytesttestingfixturestestingbackend-basics

Для чего нужен Docker multistage build

Easy

Интервьюер спрашивает: зачем в Dockerfile нужен multistage build и что он дает в production?

Вопрос6 мин
dockerdeploymentbackendmlopsproduction-basicsdevops

Как понять, что ML-фича принесла пользу

Medium

Интервьюер спрашивает: какие метрики отслеживали и как понимали, что внедренное ML-решение действительно приносит пользу?

Вопрос8 мин
metricsab-testingrecsysbusiness-impactproduct-thinkingoffline-online-gap

Чем логистическая регрессия похожа на линейную

Easy

Интервьюер спрашивает: если рассматривать логистическую регрессию, чем она похожа на линейную и чем отличается?

Вопрос6 мин
logistic-regressionlinear-modelsclassificationml-basicsclear-explanation

Как использовать LLM для фичей в прогнозе производства

Hard

Есть прогноз производства по рудникам/активам. В отчетах компаний есть текст, планы роста, графики и будущие ожидания. Как использовать LLM, чтобы улучшить табличную модель, но не заменить ее полностью?

Вопрос12 мин
mlsdllmfeature-extractionforecastingtabular-mlproblem-framing

Как валидировать LLM-фичи и не дать модели додумывать

Hard

LLM извлекает признаки из PDF-отчета: например, будущий план производства. Как проверить, что признак основан на документе, а не на внешних знаниях или догадках?

Вопрос12 мин
llmgroundingevaluationfeature-extractionvalidationhallucination-control

Как превратить годовой guidance в квартальные фичи

Hard

В отчете сказано: производство вырастет на 20% за год, рост начнется во второй половине года. Модели нужен прогноз по кварталам. Что должна вернуть LLM-фича?

Вопрос10 мин
forecastingllmfeature-engineeringuncertaintystructured-outputassumptions

Baseline для рекомендаций в корзине через item-item co-occurrence

Medium

Нужно сделать рекомендации товаров в блоке корзины: 10 млн пользователей и 100 тыс. товаров. Как построить простой baseline через совместные покупки?

Вопрос10 мин
recsyscartitem-itembaselinebaseline-designcandidate-generation

Что делать, если рекомендации в корзине не нашлись

Medium

В item-item рекомендациях для корзины может не быть соседей: новый товар, редкий товар, новый пользователь или корзина из многих товаров. Какие fallback предусмотреть?

Вопрос9 мин
recsyscold-startfallbackscartedge-casesproduct-thinking

Как учитывать категории и комплементарность в корзине

Medium

Если пользователь добавил кольцо, стоит ли рекомендовать еще кольца? Как сформулировать цель и ограничения для рекомендаций в корзине?

Вопрос10 мин
recsysdiversitycomplementsbusiness-rulesproduct-thinkingranking-constraints

Production-архитектура рекомендаций в корзине

Hard

После baseline и ranker нужно объяснить production: где считаются кандидаты, где хранятся фичи, как часто пересчитывать рекомендации при изменении корзины?

Вопрос12 мин
recsysproductionfeature-storeonline-inferencesystem-designserving

Почему начинать поиск по статьям с BM25 baseline

Medium

Нужно сделать поиск/подсказки по базе статей или банковских ответов. Почему разумно начать с BM25/TF-IDF, а не сразу с embeddings/RAG?

Вопрос9 мин
searchragbm25baselinebaseline-designretrieval

Как оценивать поиск/RAG по статьям offline и online

Medium

Как понять, что система поиска по статьям или RAG работает хорошо? Какие offline и online метрики использовать?

Вопрос10 мин
searchragevaluationmetricsoffline-evaluationonline-metrics

Как проектировать related articles и reranker

Hard

Помимо ответа на free-text вопрос нужно показывать related articles. Как их формировать: заранее или в зависимости от запроса, и где нужен reranker?

Вопрос11 мин
searchragrerankerrelated-articlesarchitectureranking

Из каких этапов состоит современная рекомендательная система

Easy

На screening по RecSys тебя просят объяснить, из каких двух основных этапов обычно состоит рекомендательная система. Как ответить коротко, но не поверхностно?

Вопрос7 мин
recsyscandidate-generationrankingscreeningfundamentalsarchitecture

Что такое cold start для пользователя и item

Easy

Как объяснить cold start в RecSys и какие практичные решения предложить для нового пользователя и нового item?

Вопрос7 мин
recsyscold-startfallbacksfundamentalsedge-casesproduct-thinking

Как говорить про A/B-тесты в RecSys screening

Easy

На screening спрашивают, касался ли ты A/B-тестов. Как структурно объяснить роль A/B-теста для рекомендательной системы?

Вопрос6 мин
ab-testingrecsysmetricsscreeningexperiment-designcommunication

Как объяснить MLflow, pipeline и Feature Store в ML-команде

Medium

На screening обсуждают стек: MLflow, pipeline, PySpark, Feature Store. Как объяснить, зачем это нужно в production ML?

Вопрос8 мин
mlopsfeature-storemlflowpipelinesproductiondata-pipelines

Как заранее понять пользу audio-event фичи

Medium

Есть новая возможность: по аудио понять событие вокруг пользователя, например лай собаки, открытие двери или разбитое стекло. Как до обучения модели понять, есть ли продуктовая польза?

Вопрос10 мин
product-mlaudio-classificationassistantuser-valueproblem-framingmetrics

Как построить модель распознавания аудио-событий

Medium

Как технически построить модель, которая по аудио определяет событие: лай собаки, звук двери, разбитое стекло и похожие классы?

Вопрос10 мин
audio-classificationspectrogrammodelingedge-mlmodel-designdata-prep

Как деплоить audio-event модель на устройство

Hard

Модель распознавания аудио-событий должна работать на колонке/камере с CPU и ограничениями по latency, privacy и батарее. Как это спроектировать?

Вопрос11 мин
edge-mlaudio-classificationlatencyprivacydeploymentsystem-design

Сколько данных нужно и когда включать high-resolution режим

Medium

Для audio-event фичи спрашивают: сколько данных нужно для обучения и как решить, когда переключать камеру/устройство на более дорогой режим обработки?

Вопрос10 мин
data-collectionthresholdsedge-mlactive-learningdata-strategycalibration

Как посчитать поток событий для CTR dashboard

Medium

Нужно построить систему, где рекламодатель смотрит CTR кампаний. Дано 200 млрд показов в день и CTR около 1%. Как начать system design с чисел?

Вопрос9 мин
system-designadsctrcapacity-planningestimationrequirements

Какие события класть в Kafka и как партиционировать

Medium

Для realtime CTR dashboard нужно описать Kafka/event log. Какая схема события нужна и по какому ключу партиционировать?

Вопрос10 мин
kafkastreamingpartitioningadsdata-modelingdistributed-systems

Как агрегировать CTR по минутам и где хранить результат

Hard

Как должен выглядеть stream job для CTR dashboard: что он читает, что считает и куда пишет результат для графика рекламодателя?

Вопрос12 мин
streamingsparkclickhousectrtime-seriesarchitecture

Как поставить задачу раннего VIP-прогноза

Medium

В casino-продукте sales-команде нужно как можно раньше понять, станет ли новый игрок VIP по депозитам и обороту. Как сформулировать ML-задачу, target, горизонт прогноза и бизнес-действие?

Вопрос12 мин
classic-mlcasinotarget-definitionbusiness-objectiveproblem-framingmetrics

На какой день VIP-прогноз становится достаточно надежным

Medium

Для нового игрока нужно понять, когда уже можно доверять прогнозу VIP-статуса. Как оценить, на каком дне жизни клиента модель дает достаточно полезный сигнал?

Вопрос10 мин
calibrationprediction-horizonconfidencecasinovalidationmetrics

Какие ранние признаки отличают потенциального VIP

Medium

Игрок только пришел в casino-продукт. Какие признаки можно собрать в первые дни, чтобы отличить потенциального VIP от обычного игрока?

Вопрос10 мин
feature-engineeringcasinobehavioral-signalsclassic-mlfeature-discoveryproduct-thinking

Как собрать feature pipeline, batch scoring и мониторинг

Hard

Данные casino-продукта лежат в хранилище и приходят через очередь сообщений. Нужно регулярно обновлять признаки и скорить пользователей. Как спроектировать production pipeline?

Вопрос13 мин
feature-storebatch-inferencemonitoringmlopsproduction-designdata-pipelines

Как сформулировать text-to-scene retrieval задачу

Hard

Есть большой архив дорожных сцен автономного автомобиля. По текстовому запросу нужно находить релевантные сегменты, например редкие ситуации с пешеходами или необычным трафиком. Как начать ML System Design?

Вопрос13 мин
computer-visionretrievalautonomous-drivingmultimodalproblem-framingrequirements

Как получить пары текстовый запрос — дорожный сегмент

Hard

Для обучения retrieval нужны пары текстовый запрос и релевантный дорожный сегмент из последовательностей изображений. Где взять такие labels и как не утонуть в ручной разметке?

Вопрос12 мин
labelingcontrastive-learningcomputer-visiondata-strategydata-designweak-supervision

Как устроить dual encoder retrieval для последовательностей изображений

Hard

Нужно индексировать не одиночные картинки, а последовательности дорожных кадров. Как сделать retrieval-модель и embedding index для text-to-scene search?

Вопрос13 мин
dual-encoderanntemporal-modelingcomputer-visionmodel-designretrieval

Как добавить reranker и мониторить деградацию retrieval

Hard

После ANN retrieval нужно улучшить качество выдачи и понять, когда система деградирует. Как спроектировать reranker, evaluation и monitoring?

Вопрос12 мин
rerankingmonitoringdriftretrievalevaluationobservability

Какие бизнес-метрики обсуждать со стейкхолдером marketplace ML задачи

Medium

PM приходит с marketplace ML задачей: улучшить цену, рекомендацию или промо-блок объявления. Какие вопросы и метрики нужно обсудить до выбора модели?

Вопрос10 мин
marketplacebusiness-metricsstakeholdersrecsysproduct-thinkingrequirements

Какие признаки использовать для модели цены объявления

Medium

Нужно построить модель для оценки или подсказки цены second-hand объявления в marketplace. Какие признаки и baseline стоит предложить?

Вопрос11 мин
pricingfeature-engineeringmarketplacetabular-mlfeature-discoverybaseline

Как делать train/test split и offline validation для marketplace модели

Hard

Для marketplace pricing/recommendation модели нужно построить offline validation. Как выбрать строку датасета, train/test split и метрики, чтобы не получить красивую, но бесполезную оценку?

Вопрос12 мин
offline-evaluationvalidationmarketplacepricingdata-splittingmetrics

Как A/B-тестировать новую карусель или тег Deal of the Day

Hard

В marketplace добавляют новую карусель или тег Deal of the Day с модельным отбором объявлений. В A/B выросла конверсия. Как понять, что сработала именно модель, а не просто новый UI/тег?

Вопрос12 мин
ab-testingmarketplaceconfoundingrecsysexperiment-designmetrics