Назад к тренажеру

Банк вопросов из реальных собеседований

Направления, темы и вопросы из записей интервью. Фильтры ниже сохраняются в ссылке.

Все вопросы

673

Полный банк вопросов из реальных собеседований.

ML-теория

119

Классический ML, нейросети, NLP, CV и RecSys без длинного кейса.

Python

67

Устройство языка, структуры данных, тестирование и инженерная база.

SQL

12

Запросы, агрегации, оконные функции и объяснение результата.

ML System Design

259

Архитектура ML-сервиса, данные, обучение, инференс, мониторинг и откат версии.

Метрики и A/B

101

Качество моделей, продуктовые метрики, эксперименты и валидация.

Продуктовые кейсы

72

Как разложить задачу продукта, ограничения, риски и первый бейзлайн.

Математика и статистика

18

Вероятность, статистика, оценки, распределения и аккуратные допущения.

Behavioral Interview

25

Ответственность за задачу, конфликты, мотивация, коммуникация и работа с фидбеком.

ML System Design

259 вопросов из реальных интервью

Открыть в общем банке
Темы
Сложность
Компания
Язык
ML System DesignMedium
Baseline для рекомендаций в корзине через item-item co-occurrence

Нужно сделать рекомендации товаров в блоке корзины: 10 млн пользователей и 100 тыс. товаров. Как построить простой baseline через совместные покупки?

recsyscartitem-itembaseline
GRII RED
ML System DesignMedium
Production-loop для CV модели после rollout

После запуска CV модели на реальных точках появляются ошибки, новые блюда и новые условия съемки. Как построить поддержку и дообучение?

computer-visionmlopsactive-learningmonitoring
CV catering
ML System DesignMedium
VLM и чат-ассистент поверх поиска недвижимости

Как встроить VLM, поиск по картинкам и чат-ассистента в продукт поиска недвижимости так, чтобы они дополняли основной retrieval/ranking, а не заменяли его?

VLMRAGassistantreal-estate search
CIAN
ML System DesignMedium
Безопасный rollout ONNX-модели в production

Как безопасно выкатить новую версию ONNX-модели в production: какие проверки сделать до релиза, как включать трафик, что мониторить и как быстро откатиться?

production incidentONNXrollbackdatabase publish
CIAN
ML System DesignMedium
Границы pricing-системы при закрепленных курьерах

Курьеры закреплены за юнитом и зоной, а pricing-система не управляет расписанием. Как это ограничение должно повлиять на дизайн ML решения?

domain-constraintsdeliverydecision-policylogistics
Dodo
ML System DesignMedium
Зачем рекомендательная система, если заказчик может вручную менять поставщиков

Заказчик может удалить предложенных поставщиков и добавить своих. Как объяснить ценность рекомендательной системы в таком продукте и какие метрики из этого следуют?

product-valueb2b-marketplacerecsysМетрики
Fairmarkit
ML System DesignMedium
Как заранее понять пользу audio-event фичи

Есть новая возможность: по аудио понять событие вокруг пользователя, например лай собаки, открытие двери или разбитое стекло. Как до обучения модели понять, есть ли продуктовая польза?

product-mlaudio-classificationassistantuser-value
Sber / GigaChat
ML System DesignMedium
Как поставить задачу раннего VIP-прогноза

В casino-продукте sales-команде нужно как можно раньше понять, станет ли новый игрок VIP по депозитам и обороту. Как сформулировать ML-задачу, target, горизонт прогноза и бизнес-действие?

classic-mlcasinotarget-definitionbusiness-objective
MrBit
ML System DesignMedium
Как построить модель распознавания аудио-событий

Как технически построить модель, которая по аудио определяет событие: лай собаки, звук двери, разбитое стекло и похожие классы?

audio-classificationspectrogrammodelingedge-ml
Sber / GigaChat
ML System DesignMedium
Как посчитать поток событий для CTR dashboard

Нужно построить систему, где рекламодатель смотрит CTR кампаний. Дано 200 млрд показов в день и CTR около 1%. Как начать system design с чисел?

system-designadsctrcapacity-planning
Компания не указана
ML System DesignMedium
Как разделить suggest и свободный поиск по статьям

В продукте есть база статей. Пользователь может видеть подсказки или задавать свободный вопрос. Как разделить эти два режима в дизайне поиска?

searchsuggestragproduct-requirements
AgeCode
ML System DesignMedium
Как собрать данные и классы для модели модерации

Для moderation-модели нужны классы и данные. Как собрать labels, обработать дисбаланс и не смешать разные политики в один шумный датасет?

moderationtraining-datalabelingclass-imbalance
Satel Generation
ML System DesignMedium
Как сформулировать ML System Design-задачу подбора поставщиков

Fairmarkit -- маркетплейс для корпоративных закупок: заказчик создает заявку, а система предлагает подходящих поставщиков. Как сформулировать ML-задачу подбора поставщиков перед выбором модели?

подбор поставщиковb2brecsysproblem-framing
Fairmarkit
ML System DesignMedium
Как учитывать категории и комплементарность в корзине

Если пользователь добавил кольцо, стоит ли рекомендовать еще кольца? Как сформулировать цель и ограничения для рекомендаций в корзине?

recsysdiversitycomplementsbusiness-rules
GRII RED
ML System DesignMedium
Как часто пересчитывать стоимость доставки в корзине

Клиент видит стоимость доставки или порог бесплатной доставки в корзине. Каталог и корзина меняются, а на чек-ауте нельзя показать другую цену и вызвать негатив. Как спроектировать пересчет и где провести границу между точностью, latency и стоимостью?

recsyspricingdeliverymonetization
Dodo
ML System DesignMedium
Какие offline и online метрики у moderation-модели

Модель модерации работает в production. Какие метрики смотреть offline, online и после запуска, чтобы контролировать качество и нагрузку на ручную проверку?

moderationМетрикиmanual-reviewmonitoring
Satel Generation
ML System DesignMedium
Какие данные нужны для подбора поставщиков и что меняет масштаб

Есть исторические сделки, логи платформы, больше миллиона поставщиков и около 100 компаний-заказчиков. Какие данные использовать и как масштаб влияет на архитектуру?

datascaleevent-logscandidate-generation
Fairmarkit
ML System DesignMedium
Когда нужен векторный поиск, а когда full-text

В продукте есть поиск по документам/артефактам. Когда использовать full-text, когда векторный поиск, и зачем может понадобиться hybrid retrieval?

Векторный поискBM25Гибридный поискretrieval
Unimatch
ML System DesignMedium
Постановка задачи динамической стоимости доставки

В ML System Design кейсе про доставку нужно спроектировать персонализацию минимальной суммы заказа или платной доставки ниже порога. Как задать цель, границы и базовый план системы?

pricingdeliveryml-system-designproblem-framing
Dodo
ML System DesignMedium
Прогнозирование временных рядов: постановка, baseline и валидация

Нужно прогнозировать retention, revenue или LTV во времени. Как поставить задачу, выбрать горизонт и гранулярность, построить baseline и провести корректную временную валидацию?

time-seriesforecastingltvbaseline
Almus
ML System DesignMedium
Разбор пользовательского и операционного сценарий до модели

Почему в кейсе доставки стоит сначала разложить путь пользователя и операционный процесс заказа, а уже потом выбирать модель?

Продуктовый сценарийoperationsdeliveryfeature-discovery
Dodo
ML System DesignMedium
Сколько данных нужно и когда включать high-resolution режим

Для audio-event фичи спрашивают: сколько данных нужно для обучения и как решить, когда переключать камеру/устройство на более дорогой режим обработки?

data-collectionthresholdsedge-mlactive-learning
Sber / GigaChat
ML System DesignMedium
Файлы ML-модели, упаковка сервиса и безопасный rollout

Вы обучили и провалидировали ML-модель. Какие файлы и метаданные нужно версионировать, как упаковать сервис и как безопасно выкатить новую версию?

ML deploymentMLflowDockerFastAPI
Apriori
ML System DesignMedium
Что делать, если рекомендации в корзине не нашлись

В item-item рекомендациях для корзины может не быть соседей: новый товар, редкий товар, новый пользователь или корзина из многих товаров. Какие fallback предусмотреть?

recsyscold-startfallbackscart
GRII RED
ML System DesignHard
Agentic architecture для motion-design AI product

Нужно спроектировать AI-native продукт, который по запросу пользователя генерирует качественные motion graphics. Как выбрать между pipeline и fully agentic архитектурой, как встроить human-in-the-loop evaluation и как управлять trade-off между quality, consistency и latency?

LLM-агентыAI productevaluationhuman-in-the-loop
Hera
ML System DesignHard
Closed-loop evaluation для LLM agents

У LLM-agent продукта уже есть offline benchmark: для каждого изменения видно, стала ли метрика лучше или хуже. Как превратить результаты evaluation в цикл улучшения системы, не скатываясь в слепую автоматическую оптимизацию под шумный benchmark?

LLM evaluationagentsRAGLLM-as-judge
Hera
ML System DesignHard
CV-пайплайн для поиска разных авто в одном объявлении

Спроектируйте систему, которая по фото и метаданным объявления определяет, что в карточке или истории автомобиля появились разные машины.

cvmoderationmarketplacepipeline-design
Corsearch / Navi
ML System DesignHard
Production-архитектура рекомендаций в корзине

После baseline и ranker нужно объяснить production: где считаются кандидаты, где хранятся фичи, как часто пересчитывать рекомендации при изменении корзины?

recsysproductionfeature-storeonline-inference
GRII RED
ML System DesignHard
Rare event classification по temporal embeddings

Есть последовательность embedding-ов дорожной сцены за временное окно. Нужно находить несколько редких событий интереса. Как сформулировать ML-задачу и baseline?

temporal-modelingmulti-label-classificationautonomous-drivingproblem-framing
Waymo
ML System DesignHard
Агент, который делает презентацию из текста

Нужно спроектировать продукт: пользователь дает текстовую задачу, система делает презентацию со слайдами, таблицами и картинками. Как построить pipeline?

LLM-агентыpresentation generationstructured outputsystem-design
Unimatch
ML System DesignHard
Адаптивная маршрутизация LLM-запросов по GPU

В LLM-инференсе есть несколько GPU-воркеров. Почему наивная round-robin маршрутизация может быть неэффективной, и как спроектировать адаптивный слой маршрутизации с учетом загрузки GPU, KV cache и длины запроса?

LLM servingGPU routingKV cacheinference optimization
Samsung
ML System DesignHard
Генерация описаний для объектных ответов в поиске

В международном поиске нужно показывать короткое описание объекта в карточке ответа, например для Китая. Как построить ML-систему генерации таких описаний?

searchobject-answergenerationinternational
Яндекс
ML System DesignHard
Двухэтапный retrieval/ranking для подбора поставщиков

Как спроектировать candidate generation и ranking для подбора поставщиков под закупочную заявку в маркетплейсе корпоративных закупок?

retrievalРанжированиеvector-searchrecsys
Fairmarkit
ML System DesignHard
Как бороться с selection bias и неоднозначными negatives

Исторические данные есть только по поставщикам, которых уже показывали или приглашали. Как понять и уменьшить selection bias, и как обращаться с losing bids?

selection-biasexplorationnegative-samplinglabels
Fairmarkit
ML System DesignHard
Как валидировать LLM-фичи и не дать модели додумывать

LLM извлекает признаки из PDF-отчета: например, будущий план производства. Как проверить, что признак основан на документе, а не на внешних знаниях или догадках?

llmgroundingevaluationfeature-extraction
Компания не указана
ML System DesignHard
Как делать train/test split и offline validation для marketplace модели

Для marketplace pricing/recommendation модели нужно построить offline validation. Как выбрать строку датасета, train/test split и метрики, чтобы не получить красивую, но бесполезную оценку?

offline-evaluationВалидацияmarketplacepricing
OLX
ML System DesignHard
Как деплоить audio-event модель на устройство

Модель распознавания аудио-событий должна работать на колонке/камере с CPU и ограничениями по latency, privacy и батарее. Как это спроектировать?

edge-mlaudio-classificationlatencyprivacy
Sber / GigaChat
ML System DesignHard
Как добавить content embeddings в DSSM/two-tower модель

Есть item2vec/DSSM-подобная модель, обученная на сессиях кликов: anchor, positive рядом в сессии и negative. У товара есть текстовый embedding из LLM. Как добавить content-информацию в архитектуру?

recsysdssmtwo-towercontent-embeddings
Wildberries
ML System DesignHard
Как использовать LLM для фичей в прогнозе производства

Есть прогноз производства по рудникам/активам. В отчетах компаний есть текст, планы роста, графики и будущие ожидания. Как использовать LLM, чтобы улучшить табличную модель, но не заменить ее полностью?

ML System Designllmfeature-extractionforecasting
Компания не указана
ML System DesignHard
Как получить пары текстовый запрос — дорожный сегмент

Для обучения retrieval нужны пары текстовый запрос и релевантный дорожный сегмент из последовательностей изображений. Где взять такие labels и как не утонуть в ручной разметке?

labelingcontrastive-learningcomputer-visiondata-strategy
Waymo
ML System DesignHard
Как построить модель визуального сравнения объявлений авто

Есть база объявлений авто и якорное объявление. Нужно находить архивные объявления, где визуально другая машина: другой цвет, салон, колеса, кузов или ракурс. Как поставить задачу и обучить модель?

computer-visionmetric-learningretrievalhard-negatives
Wildberries
ML System DesignHard
Как превратить годовой guidance в квартальные фичи

В отчете сказано: производство вырастет на 20% за год, рост начнется во второй половине года. Модели нужен прогноз по кварталам. Что должна вернуть LLM-фича?

forecastingllmfeature-engineeringuncertainty
Компания не указана
ML System DesignHard
Как прогнозировать LTV для новых когорт без истории

Есть LTV/retention прогноз по когортам. Для старых когорт есть 7/30/180 дней истории, а для новых есть только install или trial. Как строить прогноз уже сегодня?

ltvtime-seriescohortscold-start
Almus
ML System DesignHard
Как работать с деревьями категорий заказчиков

У каждого заказчика свое дерево категорий: названия могут быть нормальными словами, внутренними кодами или разной глубины. Как учитывать такие категории при подборе поставщиков?

taxonomyembeddingscategorical-featuresb2b
Fairmarkit
ML System DesignHard
Как собрать feature pipeline, batch scoring и мониторинг

Данные casino-продукта лежат в хранилище и приходят через очередь сообщений. Нужно регулярно обновлять признаки и скорить пользователей. Как спроектировать production pipeline?

feature-storebatch-inferencemonitoringmlops
MrBit
ML System DesignHard
Как сравнить два LLM для customer support automation

Есть реальный продуктовый use case: customer support automation. Нужно сравнить два LLM/agent variants и выбрать, какой запускать. Как спроектировать evaluation: данные, offline metrics, human/LLM judging, system metrics и online validation?

LLM evaluationcustomer supportRAGA/B testing
Parloa
ML System DesignHard
Как строить эмбеддинги поставщиков и чем опасна многошаговая агрегация

Поставщика можно представить через прошлые заявки, профиль и категории. Как построить представление поставщика и какие проблемы есть у averaging request embeddings?

эмбеддинги поставщиковrepresentation-learningfeature-aggregationfeature-engineering
Fairmarkit
ML System DesignHard
Как сформулировать text-to-scene retrieval задачу

Есть большой архив дорожных сцен автономного автомобиля. По текстовому запросу нужно находить релевантные сегменты, например редкие ситуации с пешеходами или необычным трафиком. Как начать ML System Design?

computer-visionretrievalautonomous-drivingmultimodal
Waymo
ML System DesignHard
Как устроить dual encoder retrieval для последовательностей изображений

Нужно индексировать не одиночные картинки, а последовательности дорожных кадров. Как сделать retrieval-модель и embedding index для text-to-scene search?

dual-encoderanntemporal-modelingcomputer-vision
Waymo
ML System DesignHard
Какую deep learning архитектуру выбрать для временного ряда

После градиентного бустинга: если смотреть в сторону deep learning, какую архитектуру предложить для последовательных данных или временного ряда и почему?

ML System Designtime-seriesdeep-learningsequence-models
BHFT
ML System DesignHard
Лейблы для контрольных вопросов

Какие лейблы собрать для обучения выбора контрольного вопроса и как бороться с тем, что мы видим ответы только на показанные вопросы?

labelscounterfactualssecurityРанжирование
T-Bank
ML System DesignHard
Поиск safe/unsafe видеофрагментов на большом масштабе

Представьте два видеосервиса с миллиардами роликов: в одном нужно быстро находить safe-фрагменты внутри в основном unsafe-контента, в другом - unsafe-фрагменты внутри в основном safe-контента. Разметки почти нет, ресурсов и времени мало. Как бы вы строили pipeline?

video moderationclass imbalancedata miningweak supervision
Wisebits / xHamster
ML System DesignHard
Ранжирование контрольных вопросов в call center

В call center нужно выбрать контрольный вопрос для верификации клиента: достаточно безопасный, но не слишком сложный. Как построить ML-систему ранжирования вопросов?

bankingРанжированиеverificationcall-center
T-Bank
ML System DesignHard
Спроектировать рекомендательную ленту видео с товарами

В e-commerce приложении запускается TikTok-like лента видео на главной. К каждому видео привязаны товары, видео около 1500 и живут 1-2 месяца. Истории по новой поверхности нет. Как спроектировать систему рекомендаций?

recsysvideo-feedecommercecold-start
Самокат
ML System DesignHard
Что делать, если invoice parsing слишком дорогой и медленный

Pipeline для PDF-инвойсов работает, но обработка стала медленной и дорогой. Как искать узкие места и оптимизировать?

cost optimizationlatencyDocument AIproduction-debugging
Vertex / BP
Банк вопросов из реальных собеседований — ML Mentor