Назад к тренажеру

Банк вопросов из реальных собеседований

Направления, темы и вопросы из записей интервью. Фильтры ниже сохраняются в ссылке.

Все вопросы

673

Полный банк вопросов из реальных собеседований.

ML-теория

119

Классический ML, нейросети, NLP, CV и RecSys без длинного кейса.

Python

67

Устройство языка, структуры данных, тестирование и инженерная база.

SQL

12

Запросы, агрегации, оконные функции и объяснение результата.

ML System Design

259

Архитектура ML-сервиса, данные, обучение, инференс, мониторинг и откат версии.

Метрики и A/B

101

Качество моделей, продуктовые метрики, эксперименты и валидация.

Продуктовые кейсы

72

Как разложить задачу продукта, ограничения, риски и первый бейзлайн.

Математика и статистика

18

Вероятность, статистика, оценки, распределения и аккуратные допущения.

Behavioral Interview

25

Ответственность за задачу, конфликты, мотивация, коммуникация и работа с фидбеком.

ML-теория

119 вопросов из реальных интервью

Открыть в общем банке
Темы
Сложность
Компания
Язык
ML-теорияMedium
Bagging, boosting и регуляризация деревьев

Чем отличаются bagging и gradient boosting? Что будет, если убрать одно дерево из Random Forest и из gradient boosting, и как деревья могут переобучаться на редких категориальных признаках?

baggingrandom forestgradient boostingdecision trees
inDrive
ML-теорияMedium
Дискриминативные и генеративные модели

Есть дискриминативные и генеративные модели. Чем они отличаются с математической точки зрения? Приведите примеры современных генеративных моделей.

generative modelsdiscriminative modelsdiffusionGAN
Wisebits / xHamster
ML-теорияMedium
Как строить генерацию кандидатов для товарных рекомендаций

Есть рекомендации похожих или сочетаемых товаров. Какие источники кандидатов и признаки можно использовать?

candidate generationitem-to-itemcollaborative filteringВекторный поиск
Uzum
ML-теорияMedium
Переобучение, регуляризация и подбор гиперпараметров

Для бинарной классификации есть очень много признаков. Какие проблемы это создает, как заметить переобучение и как подбирать гиперпараметры без утечки в тест?

overfittingregularizationcross-validationhyperparameters
inDrive
ML-теорияHard
Open vocabulary цвета и атрибутов

Каталог содержит много цветов и текстовых описаний, а пользователи ищут по фото. Как извлекать и использовать цветовые атрибуты, если словарь не полностью закрыт?

attributescoloropen-vocabularymultimodal
Wildberries
ML-теорияHard
Self-supervised pretraining на unlabeled sequences

Есть много неразмеченных driving/log sequences и мало labels для редких событий. Какие self-supervised подходы можно использовать до supervised fine-tuning?

self-supervised-learningsequence-modelingrepresentation-learningpretraining-objectives
Waymo
ML-теорияHard
VLM для распознавания еды: точность vs latency

Большая VLM неплохо распознает блюда, если дать ей фото и меню, но отвечает десятки секунд. Как использовать такую модель в продукте с жестким latency?

computer-visionvlmdistillationlatency
CV catering
ML-теорияHard
Как персонализировать item-page карусель автомобилей

На странице конкретного автомобиля все пользователи видят одинаковые item-to-item рекомендации. Как добавить персонализацию, сохранив связь с текущим item и низкую latency?

motorsitem-to-itemuser-to-itempersonalization
OLX
ML-теорияHard
Как подавать разнотипные признаки в трансформер для RecSys

Есть числовые, категориальные и поведенческие признаки пользователя и товара. Как превратить их во вход трансформера?

feature encodingtransformerscategorical featuresuser embeddings
Ozon
ML-теорияHard
Как превратить текстовый запрос в кандидатов для поиска недвижимости

Пользователь пишет свободный текстовый запрос по недвижимости, в котором могут быть частые атрибуты и редкие бытовые детали. Как превратить такой query в кандидатов через structured attributes, полнотекстовый поиск и векторный поиск?

semantic searchattribute extractionВекторный поискBM25
CIAN
ML-теорияHard
Переписывание мультимодального запроса

Пользователь отправляет картинку и короткий текстовый запрос. Как переписать это в поисковый запрос, который лучше работает с существующим поиском?

vlmquery-rewritingsearchmultimodal
Яндекс
ML-теорияHard
Фильтрация web search результатов для brand protection

Спроектируйте систему, которая ищет в интернете потенциальные нарушения бренда и фильтрует массу нерелевантных результатов для 1000+ клиентов.

searchmoderationbrand-protectionretrieval
Corsearch / Navi
Банк вопросов из реальных собеседований — ML Mentor